더북(TheBook)

마지막 줄에 있는 word_counts는 단어의 빈도수를 계산해 주는 함수입니다. 이를 출력한 결과는 다음과 같습니다.

 

실행 결과

단어 카운트:
OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화', 1), ('합니다', 1), ('단어로', 1), ('토큰화해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토큰화한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])

토큰화’가 3회, ‘텍스트의’와 ‘딥러닝에서’가 2회, 나머지가 1회씩 나오고 있음을 보여 줍니다. 그리고 순서를 기억하는 OrderedDict 클래스에 담겨 있는 형태로 출력되는 것을 볼 수 있습니다. document_count() 함수를 이용하면 총 몇 개의 문장이 들어 있는지도 셀 수 있습니다.

print("\n문장 카운트: ", token.document_count)

실행 결과

문장 카운트: 3
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.