더북(TheBook)

dtm_tfidfaxis=0(수직 방향으로) 기준으로 합계를 낸 dist 변수를 생성한다. dist 변수를 vocabulary_ 순으로 정렬해 비율을 확인한다.

dist = np.sum(dtm_tfidf, axis=0)
pd.DataFrame(dist, columns=cols_tfidf).T.sort_values(by=0).tail(10)

실행 결과

0

의한

15.021840

무엇입니까

15.270257

이상

15.577954

관한

16.593598

무엇인가요

16.650743

따라

16.652594

대한

18.866037

있나요

19.707343

서울시

22.586695

어떻게

37.924574

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.