
▲ 그림 2-6 훈련 세트에 있는 모든 텍스트를 개별 토큰으로 토큰화하여 어휘사전을 구축합니다. 이런 개별 토큰은 알파벳 순서로 정렬되어 있으며 중복된 토큰은 삭제됩니다. 그런 다음 어휘사전에 추가된 각각의 고유한 토큰을 정수 값으로 매핑합니다. 그림에 나온 어휘사전은 의도적으로 간결하게 나타내기 위해 작게 만들었고 구두점 문자나 특수 문자가 없습니다.

▲ 그림 2-6 훈련 세트에 있는 모든 텍스트를 개별 토큰으로 토큰화하여 어휘사전을 구축합니다. 이런 개별 토큰은 알파벳 순서로 정렬되어 있으며 중복된 토큰은 삭제됩니다. 그런 다음 어휘사전에 추가된 각각의 고유한 토큰을 정수 값으로 매핑합니다. 그림에 나온 어휘사전은 의도적으로 간결하게 나타내기 위해 작게 만들었고 구두점 문자나 특수 문자가 없습니다.