더북(TheBook)

1.2.4 오디오 생성형 AI

오디오 생성형 AI는 음성, 음악, 효과음 등 다양한 소리를 만드는 AI입니다. 앞서 설명한 두 기술보다는 상대적으로 덜 알려졌으나 최근 빠른 속도로 발전하며 다양한 분야에서 관심을 모으고 있습니다.

오디오 생성형 AI의 핵심 기술은 텍스트를 음성으로 변환하는 TTS(Text-To-Speech), 음성을 텍스트로 변환하는 STT(Speech-To-Text), 텍스트 입력만으로 새로운 음악을 제작하는 음악 생성입니다. 각 기술의 대표 서비스는 다음과 같습니다.

클로바 더빙(clovadubbing.naver.com): 네이버의 클로바에서 제공하는 더빙 서비스입니다. 한국어 텍스트-음성 변환(TTS) 기술에 특화돼 자연스러운 음성을 생성하며, 유튜브 크리에이터나 교육 콘텐츠 제작자가 더빙 영상 제작에 많이 이용하고 있습니다.

클로바 노트(clovanote.naver.com): 네이버의 클로바에서 제공하는 음성-텍스트 변환(STT) 서비스입니다. 대화 내용을 텍스트로 변환할 수 있어 회의록 작성, 자막 생성 등에 유용합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.