SECTION 2.9 요약
• LLM은 원시 텍스트를 처리할 수 없기 때문에 텍스트 데이터를 수치 벡터로 변환해야 합니다. 임베딩은 (단어나 이미지 같은) 이산적인 데이터를 연속적인 벡터 공간에 매핑하여 신경망의 연산과 호환되게 만듭니다.
• 먼저 원시 텍스트를 단어 또는 문자에 해당하는 토큰으로 분할합니다. 그런 다음 이 토큰을 토큰 ID라 부르는 정수 표현으로 바꿉니다.
• <|unk|>와 <|endoftext|> 같은 특수 토큰을 추가하여 모델이 알지 못하는 단어나 문서 사이의 경계와 같이 다양한 문맥을 이해하고 처리할 수 있도록 돕습니다.
• GPT-2와 GPT-3 같은 LLM에서 사용하는 바이트 페어 인코딩(BPE) 토크나이저는 알지 못하는 단어를 부분단어나 개별 문자로 분할하는 식으로 효율적으로 처리할 수 있습니다.