더북(TheBook)

4.4 음성 인식: 합성곱 신경망을 오디오 데이터에 적용하기

지금까지 컴퓨터 비전 작업을 수행하기 위해 합성곱 신경망을 사용하는 방법을 살펴보았습니다. 사람의 지각은 시각만이 아닙니다. 오디오는 중요한 지각 데이터이고 브라우저 API로 접근할 수 있습니다. 음성과 다른 종류의 사운드에 담긴 내용과 의미를 어떻게 인식할 수 있을까요? 놀랍게도 합성곱 신경망은 컴퓨터 비전뿐만 아니라 오디오 관련 머신 러닝에도 크게 도움이 됩니다.

이 절에서는 비교적 간단한 오디오 작업을 MNIST 문제에서 만든 것과 비슷한 합성곱 신경망으로 어떻게 해결하는지 보게 될 것입니다. 이 작업은 짧은 오디오 녹음을 20개 정도의 단어 카테고리로 분류하는 것입니다. 아마존 에코(Amazon Echo)와 구글 홈(Google Home) 같은 장치에서 볼 수 있는 음성 인식보다 간단한 작업입니다. 이런 음성 인식 시스템은 이 예제에서 사용하는 것보다 훨씬 큰 어휘를 다룹니다. 또한, 연속적으로 말한 여러 단어로 구성된 음성을 처리합니다. 반면 이 예제는 한 번에 한 단어만 다룹니다. 따라서 이 예제는 ‘음성 인식기’로 보기 어렵습니다. 대신 ‘단어 인식기’나 ‘음성 명령 인식기’로 기술하는 것이 더 정확합니다. 하지만 이 예제는 (핸즈프리 UI와 접근성 기능(accessibility feature) 같은 곳에) 여전히 실용적으로 사용될 수 있습니다. 또한, 이 예제에 들어 있는 딥러닝 기술은 실제로 고급 음성 인식 시스템의 기초가 됩니다.29

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.