더북(TheBook)

tokenizer의 word_index 속성은 단어와 숫자의 키-값 쌍을 포함하는 딕셔너리를 반환한다. 이때 자동으로 소문자로 변환해 반환되며, 느낌표나 마침표 같은 구두점도 자동으로 제거된다. 각 인덱스에 해당하는 단어가 무엇인지 확인해 보자.

word_to_index = tokenizer.word_index
sorted(word_to_index)[:10]

실행 결과

["'",
 "'25시",
 "'경복궁",
 "'관리주체는",
 "'기타운동시설운용업'의",
 "'노원'",
 "'당해",
 "'불허용도'란",
 "'새랑'의",
 "'성공창업"]
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.