더북(TheBook)

GPT 모델에서 사용하는 토크나이저는 이런 토큰이 필요하지 않으며 간단하게 <|endoftext|> 토큰만 사용합니다. <|endoftext|>[EOS] 토큰과 비슷하며 패딩에도 사용됩니다. 이어지는 장에서 살펴보겠지만 배치 입력으로 훈련할 때 일반적으로 마스크(mask)를 사용합니다. 즉, 패딩 토큰에 주의를 기울이지 않습니다. 따라서 패딩을 위해 어떤 토큰을 사용하는지는 결과에 영향을 주지 않습니다.

또한 GPT에서 사용하는 토크나이저는 어휘사전에 없는 단어를 위한 <|unk|> 토큰도 사용하지 않습니다. 대신 GPT 모델은 단어를 부분단어로 분할하는 바이트 페어 인코딩(byte pair encoding) 토크나이저를 사용합니다. 다음 절에서 이에 대해 알아보겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.