LLM의 출력을 숫자에서 텍스트로 변환할 때 토큰 ID를 텍스트로 바꿀 방법이 필요합니다. 이를 위해 어휘사전을 뒤집어 토큰 ID를 텍스트 토큰으로 매핑해야 합니다.
파이썬으로 완전한 토크나이저를 구현해 보겠습니다. 이 클래스는 텍스트를 토큰으로 분할하고 어휘사전으로 문자열-정수 매핑을 수행해 토큰 ID를 생성하는 encode 메서드를 가집니다. 또한 토큰 ID를 텍스트로 변환하기 위해 역방향으로 정수-문자열 매핑을 수행하는 decode 메서드도 구현하겠습니다. 다음은 이 토크나이저를 구현하는 코드입니다.