더북(TheBook)

단어 임베딩이 텍스트 임베딩의 가장 일반적인 형태이지만 문장, 단락 또는 문서 전체를 위한 임베딩도 있습니다. 문장이나 단락 임베딩은 RAG(retrieval-augmented generation)에서 널리 사용됩니다. RAG는 (텍스트 생성과 같은) 생성과 (외부 지식 데이터베이스 검색과 같은) 검색을 결합하여 관련 정보를 추출하여 텍스트를 생성하는 방법으로 이 책에서는 다루지 않습니다.2 이 책의 목표는 한 번에 하나의 단어씩 텍스트를 생성하는 GPT와 유사한 LLM을 훈련하는 것이므로 단어 임베딩에 초점을 맞추겠습니다.

단어 임베딩을 생성하기 위해 몇 가지 알고리즘과 프레임워크가 개발되었습니다. 초기에 등장한 가장 인기 있는 방법 중 하나는 Word2Vec입니다. Word2Vec는 타깃 단어가 주어지면 문맥 단어를 예측하거나 그 반대의 방식으로 신경망을 훈련하여 단어 임베딩을 생성합니다. Word2Vec의 핵심 아이디어는 비슷한 맥락에 등장하는 단어는 비슷한 의미를 가지는 경향이 있다는 것입니다. 따라서 그림 2-3과 같이 시각화를 위해 단어를 2차원 단어 임베딩 공간에 투영하면 비슷한 단어는 가깝게 모여 있게 됩니다.

단어 임베딩의 차원은 하나에서 수천까지 가능합니다. 차원이 높을수록 미묘한 관계를 잘 감지할 수 있지만 계산 효율성이 떨어집니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.