sum()으로 tfidf_freq의 합계를 구한다. 합계를 구하는 이유는 TF-IDF 가중치를 적용하더라도 희소한 행렬이 만들어지기 때문에 각 피처마다 가중치가 제대로 적용됐는지 확인하기 위해서다.
df_tfidf = pd.DataFrame(tfidf_freq.sum()) df_tfidf_top = df_tfidf.sort_values(by=0, ascending=False) df_tfidf_top.head(10)
실행 결과
0 |
|
스프링 데이터 jpa |
35.203215 |
파이썬 실전 활용 |
27.690173 |
nodebird sns 만들기 |
26.817724 |
머신러닝 완벽 가이드 |
24.470756 |
파이썬 머신러닝 완벽 |
24.470756 |
리액트로 nodebird sns |
24.187518 |
리액트로 nodebird sns 만들기 |
24.187518 |
파이썬 머신러닝 완벽 가이드 |
23.569611 |
프로그래밍과 자바스크립트 es6 |
20.056301 |
함수형 프로그래밍과 자바스크립트 es6 |
19.143864 |