sum()으로 데이터에 등장하는 단어들의 합을 구할 수 있다. axis=0으로 해서 열 방향으로 합을 구하고, 단어와 빈도로 짝지어진 표를 출력해 보자(축의 방향에 대한 설명은 5.8절을 참고하기 바란다).
dist = np.sum(train_feature_vector, axis=0) pd.DataFrame(dist, columns=vocab)
실행 결과
|
aid |
and |
article |
articleview |
articleview html |
articleview html idxno |
cctv를 |
co |
co kr |
co kr news |
... |
후에 |
훨씬 |
희망을 |
힘든 |
힘들게 |
힘들어 |
힘듭니다 |
힘없는 |
힘을 |
힘이 |
0 |
123 |
100 |
77 |
108 |
84 |
84 |
58 |
264 |
256 |
116 |
... |
75 |
128 |
81 |
210 |
129 |
60 |
55 |
53 |
119 |
95 |
1 rows × 2000 columns
문서에 등장하는 단어의 빈도수를 판다스의 데이터 프레임 형태로 찾아봤다. 이제 TfidfTransformer()를 사용해서 벡터 기반 머신러닝을 할 수 있는 준비가 되었다.