tokenizer의 word_index 속성은 단어와 숫자의 키-값 쌍을 포함하는 딕셔너리를 반환한다. 이때 자동으로 소문자로 변환해 반환되며, 느낌표나 마침표 같은 구두점도 자동으로 제거된다. 각 인덱스에 해당하는 단어가 무엇인지 확인해 보자.
word_to_index = tokenizer.word_index sorted(word_to_index)[:10]
실행 결과
["'", "'25시", "'경복궁", "'관리주체는", "'기타운동시설운용업'의", "'노원'", "'당해", "'불허용도'란", "'새랑'의", "'성공창업"]