밑바닥부터 만들면서 배우는 LLM: 2.1 단어 임베딩 이해하기 -5

안타깝게도 사람이 인식하는 감각과 일반적인 그래픽 표현은 본질적으로 3차원 이하로 제한되기 때문에 고차원의 임베딩은 시각화하기 어렵습니다. 그림 2-3에서 2차원 산점도로 임베딩을 표현한 이유입니다. 하지만 LLM에서는 일반적으로 훨씬 고차원의 임베딩을 사용합니다. GPT-2와 GPT-3의 경우 임베딩 크기³(모델의 은닉 상태(hidden state) 차원이라고도 부릅니다)는 모델의 버전과 크기에 따라 달라집니다. 성능과 효율성 사이의 트레이드오프(tradeoff)가 있습니다. 구체적으로 가장 작은(117M⁴과 125M 파라미터를 가진) GPT-2 모델은 768차원의 임베딩을 사용합니다. 가장 큰(175B 파라미터를 가진) GPT-3 모델의 임베딩 크기는 12,288차원입니다.

다음으로 LLM에서 사용하는 임베딩을 준비하는 데 필요한 단계를 살펴보겠습니다. 텍스트를 단어로 분할하고, 단어를 토큰으로 변환하고, 토큰을 임베딩 벡터로 변환하는 순서입니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.