오디오 합성곱 신경망의 구조는 MNIST 합성곱 신경망과 많이 비슷합니다. 이 시퀀셜 모델은 conv2d 층과 maxPooling2d 층을 반복하면서 시작합니다. 이 모델의 합성곱-풀링 부분은 MLP 바로 앞에 있는 flatten 층에서 끝납니다. MLP는 두 개의 밀집 층으로 구성됩니다. 첫 번째 밀집 층은 렐루 활성화 함수를 사용하고, 마지막 (출력) 층은 분류 작업을 위한 소프트맥스 활성화 함수를 사용합니다. 이 모델은 손실 함수로 categoricalCrossentropy를 사용하고 훈련과 평가 시에 정확도 지표를 출력하도록 설정합니다. MNIST와 음성 명령 데이터셋 모두 다중 분류이므로 이런 설정은 MNIST 합성곱 신경망과 정확히 같습니다. 오디오 합성곱 신경망은 MNIST 신경망에 비해 흥미로운 다른 점이 있습니다. 특히 conv2d 층의 kernelSize가 정사각형이 아니라 직사각형(예를 들어 [2, 8])입니다. 시간 차원보다 주파수 차원이 커서 정사각형이 아닌 스펙트로그램에 맞추기 위해 고른 것입니다.
이 음성 인식 모델은 이미 훈련되어 누구나 무료로 사용할 수 있게 제공되고 있습니다. 이 절에서는 이 모델을 웹 페이지로 로드하여 단어의 음성 인식을 직접 수행해 보겠습니다. 다음 명령으로 이 예제를 실행할 수 있습니다.
> cd deep-learning-with-javascript > npx http-server
그다음, 브라우저를 열고 http://127.0.0.1:8080/speech-commands에 접속합니다.31