밑바닥부터 만들면서 배우는 LLM: 2.1 단어 임베딩 이해하기

SECTION 2.1 단어 임베딩 이해하기

LLM을 포함해 심층 신경망 모델은 원시 텍스트를 바로 처리할 수 없습니다. 텍스트는 범주형 데이터(categorical data)이므로 신경망을 구현하고 훈련하는 데 사용되는 수학 연산과 호환되지 않습니다. 따라서 단어를 실수 벡터로 표현할 방법이 필요합니다.¹

NOTE

벡터와 텐서(tensor)에 익숙하지 않은 독자는 부록 A의 2.2절을 참고하세요.

데이터를 벡터 형태로 변환하는 개념을 흔히 임베딩(embedding)이라고 부릅니다. 그림 2-2에서 보듯이 특정 신경망 층 또는 그 밖의 사전 훈련된 신경망 모델을 사용해 여러 종류의 데이터(예를 들면, 비디오, 오디오, 텍스트)를 임베딩할 수 있습니다. 하지만 데이터 포맷마다 고유한 임베딩 모델이 필요합니다. 예를 들어, 텍스트를 위한 임베딩 모델은 오디오나 비디오 데이터를 임베딩하는 데는 적합하지 않습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.