전체 단어 사전에서 가중치 값의 합계를 살펴보자. 위에서 구한 train_feature_vector의 값을 np.sum으로 모두 더하고, axis는 0으로 한다.
axis=0과 axis=1은 작동하는 방향이 다르다. 그림 5-6에서 보는 것처럼 axis=0이 아닌 axis=1로 하면 열의 숫자를 합치기 때문에 가중치 합을 볼 수 없으므로 주의한다.
그림 5-6 | 판다스의 매개 변수 축(axis) 작동 방향
dist = np.sum(train_feature_tfidf, axis=0) vocab_count = pd.DataFrame(dist, columns=vocab) vocab_count
실행 결과
|
aa로 |
abs |
acl |
afc |
afc 챔스리그 |
afc 챔피언십 |
afc 회장 |
ag |
ag 우승 |
ai |
0 |
1.374165 |
1.493937 |
4.560771 |
10.036045 |
3.516982 |
2.254818 |
1.220953 |
14.847285 |
1.557569 |
74.285975 |
1 rows × 22377 columns