4.4.1 스펙트로그램: 사운드를 이미지로 표현하기
다른 모든 딥러닝 애플리케이션에서처럼 모델이 어떻게 동작하는지 이해하고 싶다면 먼저 데이터를 이해해야 합니다. 오디오 합성곱 신경망의 동작 방식을 이해하려면 먼저 사운드가 텐서로 표현되는 방법을 이해해야 합니다. 고등학교 물리 시간을 기억해 보면, 사운드는 공기압의 변화 패턴입니다. 마이크는 공기압의 변화를 감지하여 전기 신호로 바꾸고 컴퓨터의 사운드 카드에서 디지털화됩니다. 최신 웹 브라우저는 사운드 카드에 접근하여 디지털화된 오디오 신호를 실시간으로 제공할 수 있는 WebAudio API를 지원합니다(사용자의 권한 부여가 필요합니다). 따라서 자바스크립트 프로그래머의 관점에서 보면 사운드는 실수 값의 배열입니다. 딥러닝에서 이런 숫자 배열은 일반적으로 1D 텐서로 표현됩니다.
지금까지 사용했던 합성곱 신경망을 어떻게 1D 텐서에 적용하는지 궁금할 수 있습니다.30 적어도 2D 텐서를 사용한다고 가정하지 않았나요? 합성곱 신경망의 핵심 층인 conv2d와 maxPooling2d는 2D 공간상의 관계를 활용합니다. 사운드는 스펙트로그램(spectrogram)이라는 특별한 종류의 이미지로 표현될 수 있습니다. 스펙트로그램을 사용하면 합성곱 신경망을 사운드에 적용할 수 있을 뿐만 아니라 딥러닝을 넘어서 이론적으로도 타당합니다.