실행 결과
TfidfTransformer(smooth_idf=False)
fit_transform()으로 TF-IDF 가중치를 적용하고, 결과는 feature_tfidf 변수로 받는다.
feature_tfidf = tfidftrans.fit_transform(feature_vector) feature_tfidf.shape
실행 결과
(2410, 2000)
이제 각 row에서 전체 단어 가방 모형에 등장하는 단어에 대한 one-hot-vector에 TF-IDF 가중치를 반영한 결과를 보자. feature_tfidf.toarray()로 배열을 만든 뒤 데이터 프레임으로 만들어 tfidf_freq라는 변수에 할당한 후 head()로 잘 처리됐는지 확인한다.
tfidf_freq = pd.DataFrame(feature_tfidf.toarray(), columns=vocab) tfidf_freq.head()