더북(TheBook)

또한, word_docs() 함수를 통해 각 단어들이 몇 개의 문장에 나오는지 세어서 출력할 수도 있습니다. 출력되는 순서는 랜덤입니다.

print("\n각 단어가 몇 개의 문장에 포함되어 있는가:\n", token.word_docs)

실행 결과

각 단어가 몇 개의 문장에 포함되어 있는가:
defaultdict(<class 'int'>, {'텍스트의': 2, '단어를': 1, '합니다': 1, '토큰화': 1, '먼저': 1, '각': 1, '나누어': 1, '인식됩니다': 1, '딥러닝에서': 2, '토큰화해야': 1, '단어로': 1, '수': 1, '사용할': 1, '결과는': 1, '있습니다': 1, '토큰화한': 1})

각 단어에 매겨진 인덱스 값을 출력하려면 word_index() 함수를 사용하면 됩니다.

print("\n각 단어에 매겨진 인덱스 값:\n", token.word_index)

실행 결과

각 단어에 매겨진 인덱스 값:
{'텍스트의': 1, '딥러닝에서': 2, '먼저': 3, '각': 4, '단어를': 5, '나누어': 6, '토큰화': 7, '합니다': 8, '단어로': 9, '토큰화해야': 10, '인식됩니다': 11, '토큰화한': 12, '결과는': 13, '사용할': 14, '수': 15, '있습니다': 16}

TIP

실행 결과에 나온 인덱스 값은 251쪽 ‘단어 임베딩’ 부분에서 다시 나옵니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.