모두의 한국어 텍스트 분석 with 파이썬: 2 단어 가방 모형 만들기

이제 document-term matrix를 판다스의 데이터 프레임으로 만들어서 단어의 빈도를 확인할 수 있다.

df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
df_dtm

실행 결과

전체 문서에는 등장하지만, 해당 문서에는 등장하지 않는 단어는 0으로 표시된다. 예시 문서의 빈도수를 보면 첫 번째 문서에서 ‘코로나’라는 단어가 2번 등장하기 때문에 빈도수가 2로 표시되어 있다.

이제 전체 문서에서 단어 빈도의 합계를 구해 데이터가 간명하게 보이도록 요약한다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.