더북(TheBook)

SimpleTokenizerV1 파이썬 클래스에 기존의 어휘사전을 전달하여 새로운 토크나이저 객체를 생성합니다. 그런 다음 그림 2-8에서 보듯이 이를 사용해 텍스트를 인코딩하거나 디코딩합니다.

SimpleTokenizerV1 클래스로 새로운 토크나이저 객체를 만들고 이디스 워튼의 단편 소설의 한 구절을 토큰화해 보겠습니다.

tokenizer = SimpleTokenizerV1(vocab)
text = """"It's the last he painted, you know,"
       Mrs. Gisburn said with pardonable pride."""
ids = tokenizer.encode(text)
print(ids)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.