BPE에 대한 자세한 설명과 구현은 이 책의 범위를 넘어서지만,7 간단히 말하면 반복적으로 자주 등장하는 문자를 부분단어로 합치고 다시 자주 등장하는 부분단어를 단어로 합쳐서 어휘사전을 구축하는 방식입니다. 예를 들어, BPE는 먼저 모든 개별 문자(“a”, “b” 등)를 어휘사전에 추가합니다. 다음 단계에서 자주 등장하는 문자 조합을 부분단어로 합칩니다. 예를 들면 “d”와 “e”가 부분단어 “de”로 합쳐질 수 있습니다. “de”는 “define”, “depend”, “made”, “hidden”과 같이 많은 영어 단어에 등장하기 때문입니다. 이런 병합은 최소 빈도 기준에 의해 결정됩니다.