더북(TheBook)

SECTION 2.1 단어 임베딩 이해하기

LLM을 포함해 심층 신경망 모델은 원시 텍스트를 바로 처리할 수 없습니다. 텍스트는 범주형 데이터(categorical data)이므로 신경망을 구현하고 훈련하는 데 사용되는 수학 연산과 호환되지 않습니다. 따라서 단어를 실수 벡터로 표현할 방법이 필요합니다.1

NOTE

벡터와 텐서(tensor)에 익숙하지 않은 독자는 부록 A의 2.2절을 참고하세요.

데이터를 벡터 형태로 변환하는 개념을 흔히 임베딩(embedding)이라고 부릅니다. 그림 2-2에서 보듯이 특정 신경망 층 또는 그 밖의 사전 훈련된 신경망 모델을 사용해 여러 종류의 데이터(예를 들면, 비디오, 오디오, 텍스트)를 임베딩할 수 있습니다. 하지만 데이터 포맷마다 고유한 임베딩 모델이 필요합니다. 예를 들어, 텍스트를 위한 임베딩 모델은 오디오나 비디오 데이터를 임베딩하는 데는 적합하지 않습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.