밑바닥부터 만들면서 배우는 LLM: 2.4 특수 문맥 토큰 추가하기

SECTION 2.4 특수 문맥 토큰 추가하기

알지 못하는 단어를 처리하기 위해서는 토크나이저를 수정해야 합니다. 모델이 텍스트로부터 문맥이나 그 밖의 관련된 정보를 잘 이해할 수 있도록 특수 문맥 토큰도 추가해야 합니다. 이런 특수 토큰은 알지 못하는 단어, 문서 경계 등을 표시하는 데 사용됩니다. 구체적으로 그림 2-9에서 보듯이 <|unk|>와 <|endoftext|> 2개의 토큰을 지원하도록 어휘사전과 토크나이저 SimpleTokenizerV2를 수정하겠습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.