아주 좋네요. 훈련 세트를 기반으로 텍스트를 토큰화하고 역토큰화할 수 있는 토크나이저를 구현했습니다. 그럼 이제 훈련 세트에 없는 새로운 텍스트 샘플을 적용해 보죠.
text = "Hello, do you like tea?"
print(tokenizer.encode(text))
이 코드를 실행하면 다음과 같은 오류가 발생합니다.
KeyError: 'Hello'
이 문제는 소설 『The Verdict』에서 "Hello"란 단어가 없기 때문입니다. 따라서 어휘사전에 이 단어가 들어 있지 않습니다. 이는 LLM에서 어휘사전을 확장하기 위해 다양하고 대용량의 훈련 세트가 필요하다는 것을 잘 보여 줍니다.
다음으로 알지 못하는 단어가 포함된 텍스트에서 토크나이저를 추가로 테스트해 보고 훈련 중에 LLM에게 추가적인 문맥을 제공할 수 있는 특수 토큰에 대해 알아보겠습니다.