스펙트로그램은 다음과 같은 이유로 적절한 사운드 표현입니다. 첫째, 공간이 절약됩니다. 스펙트로그램의 실수 개수는 일반적으로 원시 파형(waveform)에 있는 실수 개수보다 몇 배 적습니다. 둘째, 거시적인 측면에서 스펙트로그램이 생물학적으로 청각이 작동하는 방식에 해당합니다. 달팽이 관이라 부르는 속귀(inner ear) 안의 해부학적 구조는 기본적으로 생물학적 버전의 푸리에 변환을 수행합니다. 사운드를 다른 주파수로 분해한 다음 여러 청각 뉴런에서 감지합니다. 셋째, 음성의 스펙트로그램 표현 덕분에 여러 종류의 음성을 서로 구분하기 쉽습니다. 이는 그림 4-12에 있는 음성 스펙트로그램 예시에 나타나 있습니다. 모음과 자음은 모두 스펙트로그램에서 패턴이 다릅니다. 머신 러닝이 널리 적용되기 전인 수십 년 전에 음성 인식을 연구하던 사람들은 수동으로 만든 규칙을 사용해 스펙트로그램에서 자음과 모음을 감지하려고 했습니다. 딥러닝은 이런 수작업의 수고를 덜어 줍니다.
잠시 멈추고 생각을 해보죠. 그림 4-1에 있는 MNIST 이미지와 그림 4-12에 있는 사운드 스펙트로그램을 보았을 때 두 데이터셋이 유사하다는 것을 알 수 있습니다. 두 데이터셋은 2D 특성 공간에 패턴을 담고 있습니다. 이런 패턴은 훈련을 통해 구분할 수 있습니다. 두 데이터셋은 상세한 위치, 크기, 특성에 일부 무작위성이 있습니다. 마지막으로 둘 다 다중 분류 작업입니다. MNIST에는 열 개의 클래스가 있지만, 음성 명령 데이터셋에는 20개의 클래스(0에서 9까지 열 개의 숫자와 ‘up’, ‘down’, ‘left’, ‘right’, ‘go’, ‘stop’, ‘yes’, ‘no’, 그리고 잡음과 모르는 단어를 위한 ‘unknown’ 클래스)가 있습니다. 이런 데이터셋의 유사성 때문에 음성 명령 인식 작업에 합성곱 신경망이 적절합니다.