실행 결과

    TfidfTransformer(smooth_idf=False)

     

    fit_transform()으로 TF-IDF 가중치를 적용하고, 결과는 feature_tfidf 변수로 받는다.

    feature_tfidf = tfidftrans.fit_transform(feature_vector)
    feature_tfidf.shape

    실행 결과

    (2410, 2000)

     

    이제 각 row에서 전체 단어 가방 모형에 등장하는 단어에 대한 one-hot-vector에 TF-IDF 가중치를 반영한 결과를 보자. feature_tfidf.toarray()로 배열을 만든 뒤 데이터 프레임으로 만들어 tfidf_freq라는 변수에 할당한 후 head()로 잘 처리됐는지 확인한다.

    tfidf_freq = pd.DataFrame(feature_tfidf.toarray(), columns=vocab)
    tfidf_freq.head()
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.