더북(TheBook)

전체 단어 사전에서 가중치 값의 합계를 살펴보자. 위에서 구한 train_feature_vector의 값을 np.sum으로 모두 더하고, axis는 0으로 한다.

axis=0과 axis=1은 작동하는 방향이 다르다. 그림 5-6에서 보는 것처럼 axis=0이 아닌 axis=1로 하면 열의 숫자를 합치기 때문에 가중치 합을 볼 수 없으므로 주의한다.

 

그림 5-6 | 판다스의 매개 변수 축(axis) 작동 방향

dist = np.sum(train_feature_tfidf, axis=0)
 
vocab_count = pd.DataFrame(dist, columns=vocab)
vocab_count

실행 결과

 

aa로

abs

acl

afc

afc 챔스리그

afc 챔피언십

afc 회장

ag

ag 우승

ai

0

1.374165

1.493937

4.560771

10.036045

3.516982

2.254818

1.220953

14.847285

1.557569

74.285975

1 rows × 22377 columns

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.