더북(TheBook)

2장

연습문제 2.1

인코더에 한 번에 하나의 문자열을 입력하여 개별 토큰 ID를 얻을 수 있습니다.

print(tokenizer.encode("Ak"))
print(tokenizer.encode("w"))
# ...

출력은 다음과 같습니다.

[33901]
[86]
# ...

다음 코드로 원본 문자열을 재조립할 수 있습니다.

print(tokenizer.decode([33901, 86, 343, 86, 220, 959]))

출력은 다음과 같습니다.

'Akwirw ier'

본문으로

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.