SECTION 2.5 바이트 페어 인코딩
바이트 페어 인코딩(BPE) 기반의 고급 토큰화 방법을 알아보겠습니다. BPE 토크나이저는 GPT-2, GPT-3 그리고 ChatGPT에서 사용된 모델과 같은 LLM을 훈련하는 데 사용되었습니다.
BPE 구현은 상대적으로 복잡하기 때문에 파이썬 오픈 소스 라이브러리인 tiktoken(https://github.com/openai/tiktoken)을 사용하겠습니다. tiktoken은 러스트(Rust) 언어로 매우 효율적으로 구현한 BPE 알고리즘을 제공합니다. 다른 파이썬 라이브러리와 마찬가지로 터미널에서 pip 명령으로 tiktoken 라이브러리를 설치할 수 있습니다.
pip install tiktoken