이제 document-term matrix를 판다스의 데이터 프레임으로 만들어서 단어의 빈도를 확인할 수 있다.
df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab) df_dtm
실행 결과
|
거리두기와 |
문의입니다 |
상생지원금 |
승강장 |
요금 |
운행시간과 |
지하철 |
코로나 |
택시 |
0 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
2 |
0 |
1 |
0 |
1 |
0 |
0 |
1 |
1 |
2 |
0 |
0 |
2 |
0 |
1 |
0 |
1 |
0 |
0 |
1 |
0 |
0 |
3 |
0 |
1 |
0 |
1 |
0 |
0 |
0 |
0 |
1 |
전체 문서에는 등장하지만, 해당 문서에는 등장하지 않는 단어는 0으로 표시된다. 예시 문서의 빈도수를 보면 첫 번째 문서에서 ‘코로나’라는 단어가 2번 등장하기 때문에 빈도수가 2로 표시되어 있다.
이제 전체 문서에서 단어 빈도의 합계를 구해 데이터가 간명하게 보이도록 요약한다.