아는 만큼 보이는 생성형 AI: 1.2.4 오디오 생성형 AI -2

• 수노(suno.com), 유디오(www.udio.com): 둘 다 오디오 생성형 AI로, 수노는 2023년에 수노(Suno)에서 처음 공개했고, 유디오는 2024년에 구글 딥마인드 출신 연구자들이 처음 공개했습니다. 둘 다 ‘잔잔한 피아노 선율의 배경 음악’, ‘활기찬 록 음악’과 같은 텍스트를 입력하면 이를 기반으로 음악을 만들어주는 서비스입니다.

각 서비스의 특징과 사용법은 5장에서 자세히 살펴보겠습니다.

오디오 생성형 AI는 언어 생성형 AI와 이미지 생성형 AI에 비해 발전의 여지가 큰 분야입니다. 따라서 앞으로 우리에게 더욱 다양한 가치를 제공할 것입니다.

지금까지 언어 생성형 AI, 이미지 생성형 AI, 오디오 생성형 AI의 개념과 대표적인 서비스를 간략히 소개했습니다. 세 기술은 다양한 형태로 조합돼 활용되기도 합니다. 예를 들어 언어 생성형 AI 모델과 이미지 생성형 AI 모델을 조합해 문제 이미지를 보여주고 풀어달라고 할 수 있습니다. 이렇게 텍스트, 이미지, 오디오 등의 다양한 정보를 동시에 이해하고 처리할 수 있는 AI 모델을 대형 멀티모달 모델(LMM, Large Multimodal Model)이라고 합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.