더북(TheBook)

실행 결과

TfidfTransformer(smooth_idf=False)

 

fit_transform()으로 TF-IDF 가중치를 적용하고, 결과는 feature_tfidf 변수로 받는다.

feature_tfidf = tfidftrans.fit_transform(feature_vector)
feature_tfidf.shape

실행 결과

(2410, 2000)

 

이제 각 row에서 전체 단어 가방 모형에 등장하는 단어에 대한 one-hot-vector에 TF-IDF 가중치를 반영한 결과를 보자. feature_tfidf.toarray()로 배열을 만든 뒤 데이터 프레임으로 만들어 tfidf_freq라는 변수에 할당한 후 head()로 잘 처리됐는지 확인한다.

tfidf_freq = pd.DataFrame(feature_tfidf.toarray(), columns=vocab)
tfidf_freq.head()
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.