더북(TheBook)

앞의 코드는 다음과 같은 토큰 ID를 출력합니다.

[1, 56, 2, 850, 988, 602, 533, 746, 5, 1126, 596, 5, 1, 67, 7, 38, 851, 1108, 754, 793, 7]

▲ 그림 2-8 토크나이저는 일반적으로 encode 메서드와 decode 메서드를 구현합니다. encode 메서드는 샘플 텍스트를 받아 개별 토큰으로 분할한 후 어휘사전으로 토큰을 토큰 ID로 바꿉니다. decode 메서드는 토큰 ID를 받아 다시 텍스트 토큰으로 변환한 후 토큰을 이어 원래 형태의 텍스트를 만듭니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.