dtm_tfidf를 axis=0(수직 방향으로) 기준으로 합계를 낸 dist 변수를 생성한다. dist 변수를 vocabulary_ 순으로 정렬해 비율을 확인한다.
dist = np.sum(dtm_tfidf, axis=0) pd.DataFrame(dist, columns=cols_tfidf).T.sort_values(by=0).tail(10)
실행 결과
0 |
|
의한 |
15.021840 |
무엇입니까 |
15.270257 |
이상 |
15.577954 |
관한 |
16.593598 |
무엇인가요 |
16.650743 |
따라 |
16.652594 |
대한 |
18.866037 |
있나요 |
19.707343 |
서울시 |
22.586695 |
어떻게 |
37.924574 |