다음으로 이 샘플 텍스트를 코드 2-2에서 만든 어휘사전과 함께 SimpleTokenizerV2로 토큰화해 보겠습니다.
tokenizer = SimpleTokenizerV2(vocab)
print(tokenizer.encode(text))
이 코드는 다음과 같은 토큰 ID를 출력합니다.
[1131, 5, 355, 1126, 628, 975, 10, 1130, 55, 988, 956, 984, 722, 988, 1131, 7]
토큰 ID의 리스트에 <|endoftext|> 토큰에 해당하는 1130과 <|unk|> 토큰에 해당하는 1131이 2개 포함된 것을 볼 수 있습니다.
토큰화가 잘되었는지 검사하기 위해 텍스트로 다시 바꾸어 보겠습니다.
print(tokenizer.decode(tokenizer.encode(text)))
출력은 다음과 같습니다.
<|unk|>, do you like tea? <|endoftext|> In the sunlit terraces of the <|unk|>.