SimpleTokenizerV1 파이썬 클래스에 기존의 어휘사전을 전달하여 새로운 토크나이저 객체를 생성합니다. 그런 다음 그림 2-8에서 보듯이 이를 사용해 텍스트를 인코딩하거나 디코딩합니다.
SimpleTokenizerV1 클래스로 새로운 토크나이저 객체를 만들고 이디스 워튼의 단편 소설의 한 구절을 토큰화해 보겠습니다.
tokenizer = SimpleTokenizerV1(vocab)
text = """"It's the last he painted, you know,"
Mrs. Gisburn said with pardonable pride."""
ids = tokenizer.encode(text)
print(ids)