더북(TheBook)

▲ 그림 2-11 BPE 토크나이저는 알지 못하는 단어를 개별 문자 또는 부분단어로 나눕니다. 이런 방식을 사용해 BPE 토크나이저는 어떤 단어도 처리할 수 있습니다. 따라서 알지 못하는 단어를 <|unk|>와 같은 특수 토큰으로 바꿀 필요가 없습니다.

알지 못하는 단어를 개별 문자로 분할하는 기능 덕분에 토크나이저와 이런 토크나이저로 훈련된 LLM이 훈련 데이터에 없는 단어가 포함되어 있더라도 모든 텍스트를 처리할 수 있습니다.

연습문제 2.1

알지 못하는 단어에 대한 바이트 페어 인코딩

tiktoken 라이브러리의 BPE 토크나이저를 알지 못하는 단어 ‘Akwirw ier’에 적용해서 개별 토큰 ID를 출력해 보세요. 그런 다음 출력된 리스트의 각 정수 값에 decode 메서드를 호출하여 그림 2-11과 같은 매핑을 만들어 보세요. 마지막으로 decode 메서드를 토큰 ID 리스트에 적용하여 원본 입력 ‘Akwirw ier’을 재구성할 수 있는지 확인해 보세요.

해답으로

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.