그림 4-12에서 보듯이 스펙트로그램은 2D 숫자 배열이며, MNIST 이미지와 매우 비슷한 방식으로 흑백 이미지로 표현할 수 있습니다. 수평 축은 시간이고 수직 축은 주파수입니다. 스펙트로그램의 수직 슬라이스(slice)는 짧은 시간 안에 일어나는 사운드의 스펙트럼입니다. 스펙트럼은 사운드를 여러 가지 주파수 성분으로 분해한 것입니다. 이를 대략적으로 다른 피치(pitch)로 이해할 수 있습니다. 프리즘으로 빛을 여러 개의 색상으로 나눌 수 있는 것처럼 사운드는 푸리에 변환(Fourier transform)이라는 수학 연산으로 여러 개의 주파수로 분해할 수 있습니다. 간단하게 말해서 스펙트로그램은 사운드의 주파수가 연속적인 짧은 시간(일반적으로 20밀리초)에 걸쳐 어떻게 변하는지 설명해 줍니다.
▲ 그림 4-12 ’zero’와 ‘yes’ 단독 음성의 스펙트로그램의 예. 스펙트로그램은 사운드의 시간-주파수 표현이다. 스펙트로그램을 이미지로 표현된 사운드로 생각할 수 있다. 시간 축 기준의 슬라이스(이미지의 열)는 짧은 순간(프레임)이다. 주파수 축 기준의 슬라이스(이미지의 행)는 좁은 범위의 특정 프리퀀시(피치)에 해당한다. 이미지에 있는 각 픽셀 값은 해당 순간의 주파수 대역에 있는 사운드의 상대적 에너지를 나타낸다. 이 그림의 스펙트로그램은 어두운 영역이 높은 양의 에너지에 해당하도록 그린 것이다. 음성마다 다른 특성을 가진다. 예를 들어 ‘z’와 ‘s’ 같은 치찰음은 2~3KHz 이상의 주파수에 집중된 준정상 상태(quasi-steady-state) 에너지를 가지고 있다. ‘e’와 ‘o’ 같은 모음은 스펙트럼의 하단(<3kHz)에 수평 줄무늬(에너지 피크)가 특징이다. 이런 에너지 피크를 음향의 포먼트(formant)라고 부른다. 모음마다 포먼트 주파수가 다르다. 이런 여러 가지 음성의 독특한 특성을 심층 합성곱 신경망에서 단어 인식을 위해 사용할 수 있다.