더북(TheBook)

다음으로 이 샘플 텍스트를 코드 2-2에서 만든 어휘사전과 함께 SimpleTokenizerV2로 토큰화해 보겠습니다.

tokenizer = SimpleTokenizerV2(vocab)
print(tokenizer.encode(text))

이 코드는 다음과 같은 토큰 ID를 출력합니다.

[1131, 5, 355, 1126, 628, 975, 10, 1130, 55, 988, 956, 984, 722, 988, 1131, 7]

토큰 ID의 리스트에 <|endoftext|> 토큰에 해당하는 1130<|unk|> 토큰에 해당하는 1131이 2개 포함된 것을 볼 수 있습니다.

토큰화가 잘되었는지 검사하기 위해 텍스트로 다시 바꾸어 보겠습니다.

print(tokenizer.decode(tokenizer.encode(text)))

출력은 다음과 같습니다.

<|unk|>, do you like tea? <|endoftext|> In the sunlit terraces of the <|unk|>.
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.