여기서 볼 수 있듯이 이 딕셔너리(dictionary)는 개별 토큰과 이에 연관된 고유한 정수 레이블을 담고 있습니다. 다음 목표는 이 어휘사전을 새로운 텍스트에 적용하여 토큰 ID로 변환하는 것입니다(그림 2-7).

▲ 그림 2-7 새로운 샘플 텍스트를 토큰화하고, 어휘사전을 사용해 텍스트 토큰을 토큰 ID로 변환합니다. 어휘사전은 훈련 세트 전체를 사용해 구축되며, 훈련 세트 자체와 새로운 텍스트 샘플에 적용될 수 있습니다. 간단하게 나타내기 위해 그림에 나온 어휘사전에는 구두점 문자나 특수 문자가 없습니다.