더북(TheBook)

sum()으로 데이터에 등장하는 단어들의 합을 구할 수 있다. axis=0으로 해서 열 방향으로 합을 구하고, 단어와 빈도로 짝지어진 표를 출력해 보자(축의 방향에 대한 설명은 5.8절을 참고하기 바란다).

dist = np.sum(train_feature_vector, axis=0)
 
pd.DataFrame(dist, columns=vocab)

실행 결과

 

aid

and

article

articleview

articleview html

articleview html idxno

cctv를

co

co kr

co kr news

...

후에

훨씬

희망을

힘든

힘들게

힘들어

힘듭니다

힘없는

힘을

힘이

0

123

100

77

108

84

84

58

264

256

116

...

75

128

81

210

129

60

55

53

119

95

1 rows × 2000 columns

 

문서에 등장하는 단어의 빈도수를 판다스의 데이터 프레임 형태로 찾아봤다. 이제 TfidfTransformer()를 사용해서 벡터 기반 머신러닝을 할 수 있는 준비가 되었다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.