모두의 한국어 텍스트 분석 with 파이썬: 1 TF-IDF 가중치를 적용하는 방법

fit(), transform() 또는 fit_transform()을 사용했을 때와 같은 크기의 희소 행렬이 반환된다.

# fit_transform()으로 변환할 수도 있다.
dtm = tfidfvect.fit_transform(corpus)
dtm

실행 결과

<4x9 sparse matrix of type '<class 'numpy.float64'>'
  with 14 stored elements in Compressed Sparse Row format>

희소 행렬을 출력해 보자. dtm.toarray()로 배열을 확인할 수 있다.

# 문서에 토큰이 더 많이 나타날수록 가중치는 더 커진다. 
# 그러나 토큰이 문서에 많이 표시될수록 가중치가 감소한다.
dtm.toarray()

실행 결과

array([[0.39928771, 0.20836489, 0.39928771, 0. , 0. ,
        0.        , 0.        , 0.79857543, 0.        ],
       [0.        , 0.23921859, 0.        , 0.        , 0.45841237,
        0.45841237, 0.72283516, 0.        , 0.        ],
       [0.        , 0.42389674, 0.        , 0.64043405, 0.        ,
        0.        , 0.64043405, 0.        , 0.        ],
       [0.        , 0.37919167, 0.        , 0.5728925 , 0.        ,
        0. , 0. , 0. , 0.72664149]])

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.