모두의 한국어 텍스트 분석 with 파이썬: 2 단어 가방 모형 만들기

이제 document-term matrix를 판다스의 데이터 프레임으로 만들어서 단어의 빈도를 확인할 수 있다.

df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
df_dtm

실행 결과

전체 문서에는 등장하지만, 해당 문서에는 등장하지 않는 단어는 0으로 표시된다. 예시 문서의 빈도수를 보면 첫 번째 문서에서 ‘코로나’라는 단어가 2번 등장하기 때문에 빈도수가 2로 표시되어 있다.

이제 전체 문서에서 단어 빈도의 합계를 구해 데이터가 간명하게 보이도록 요약한다.

추천 도서와 신규 콘텐츠를 먼저 받아보세요