fit(), transform() 또는 fit_transform()을 사용했을 때와 같은 크기의 희소 행렬이 반환된다.
# fit_transform()으로 변환할 수도 있다. dtm = tfidfvect.fit_transform(corpus) dtm
실행 결과
<4x9 sparse matrix of type '<class 'numpy.float64'>' with 14 stored elements in Compressed Sparse Row format>
희소 행렬을 출력해 보자. dtm.toarray()로 배열을 확인할 수 있다.
# 문서에 토큰이 더 많이 나타날수록 가중치는 더 커진다. # 그러나 토큰이 문서에 많이 표시될수록 가중치가 감소한다. dtm.toarray()
실행 결과
array([[0.39928771, 0.20836489, 0.39928771, 0. , 0. , 0. , 0. , 0.79857543, 0. ], [0. , 0.23921859, 0. , 0. , 0.45841237, 0.45841237, 0.72283516, 0. , 0. ], [0. , 0.42389674, 0. , 0.64043405, 0. , 0. , 0.64043405, 0. , 0. ], [0. , 0.37919167, 0. , 0.5728925 , 0. , 0. , 0. , 0. , 0.72664149]])