더북(TheBook)

1 TF-IDF 가중치를 적용하는 방법

 

사이킷런의 TfidfVectorizer를 통해 TF-IDF 변환을 할 수 있다. CountVectorizer()TfidfTransformer()를 합친 기능이다. 그렇기 때문에 사용법은 CountVectorizer()와 대부분 동일하고 fit(), transform() 또는 fit_transform()으로 단어-문서 행렬을 변환할 수 있다.

다음은 TfidfVectorizer()의 주요 매개 변수다. CountVectorizer()에서 사용하는 공통 매개 변수 외에 TfidfVectorizer()에서 사용할 수 있는 매개 변수다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.