SECTION 2.4 특수 문맥 토큰 추가하기
알지 못하는 단어를 처리하기 위해서는 토크나이저를 수정해야 합니다. 모델이 텍스트로부터 문맥이나 그 밖의 관련된 정보를 잘 이해할 수 있도록 특수 문맥 토큰도 추가해야 합니다. 이런 특수 토큰은 알지 못하는 단어, 문서 경계 등을 표시하는 데 사용됩니다. 구체적으로 그림 2-9에서 보듯이 <|unk|>와 <|endoftext|> 2개의 토큰을 지원하도록 어휘사전과 토크나이저 SimpleTokenizerV2를 수정하겠습니다.
토크나이저가 어휘사전에 없는 단어를 만났을 때 <|unk|> 토큰을 사용하도록 수정하겠습니다. 또한 관련이 없는 텍스트 사이에 <|endoftext|> 토큰을 추가합니다. 예를 들어, 그림 2-10에 나타나 있듯이 여러 개의 독립적인 문서나 책으로 GPT와 유사한 LLM을 훈련할 때 이전 텍스트 소스 다음에 등장하는 문서나 책 앞에 <|endoftext|> 토큰을 추가하는 것이 일반적입니다. 이렇게 하면 훈련을 위해 텍스트가 연결되어 있지만 사실 관련이 없다는 것을 LLM이 이해하는 데 도움이 됩니다.