sum()으로 데이터에 등장하는 단어들의 합을 구할 수 있다. axis=0으로 해서 열 방향으로 합을 구하고, 단어와 빈도로 짝지어진 표를 출력해 보자(축의 방향에 대한 설명은 5.8절을 참고하기 바란다).

    dist = np.sum(train_feature_vector, axis=0)
     
    pd.DataFrame(dist, columns=vocab)

    실행 결과

     

    aid

    and

    article

    articleview

    articleview html

    articleview html idxno

    cctv를

    co

    co kr

    co kr news

    ...

    후에

    훨씬

    희망을

    힘든

    힘들게

    힘들어

    힘듭니다

    힘없는

    힘을

    힘이

    0

    123

    100

    77

    108

    84

    84

    58

    264

    256

    116

    ...

    75

    128

    81

    210

    129

    60

    55

    53

    119

    95

    1 rows × 2000 columns

     

    문서에 등장하는 단어의 빈도수를 판다스의 데이터 프레임 형태로 찾아봤다. 이제 TfidfTransformer()를 사용해서 벡터 기반 머신러닝을 할 수 있는 준비가 되었다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.