밑바닥부터 만들면서 배우는 LLM: 2.5 바이트 페어 인코딩 -5

토큰 ID와 디코딩된 텍스트를 바탕으로 두 가지 중요한 점을 관찰할 수 있습니다. 첫째, <|endoftext|> 토큰은 50256과 같이 비교적 큰 토큰 ID에 할당됩니다. 사실 GPT-2, GPT-3, ChatGPT의 초기 모델을 훈련하는 데 사용되는 BPE 토크나이저는 50,257 크기의 어휘사전을 가지고 있습니다. 그래서 <|endoftext|>에 가장 큰 토큰 ID가 할당됩니다.

둘째, BPE 토크나이저는 someunknownPlace와 같은 알지 못하는 단어를 정확하게 인코딩하고 디코딩합니다. BPE 토크나이저는 알지 못하는 어떤 단어도 처리할 수 있습니다. <|unk|> 토큰을 사용하지 않고 어떻게 이렇게 할 수 있는 걸까요?

BPE 알고리즘은 어휘사전에 없는 단어를 더 작은 부분단어, 심지어 개별 문자로 나누어 처음 본 단어를 처리합니다. 그림 2-11처럼 BPE 알고리즘 덕분에 토크나이저가 토큰화 과정에서 생소한 단어를 만나더라도 부분단어 토큰이나 문자의 시퀀스로 표현할 수 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.