LESSON 06
TF-IDF로 가중치를 주어 벡터화하기
앞에서는 빈도수를 기반으로 벡터를 만들었다. 전체 문서에 자주 등장하지 않더라도 해당 문서에 자주 등장하는 단어라면 중요한 단어로 볼 수 있다. 4장에서 다룬 TF-IDF 가중치를 적용하기 위해 TfidfTransformer()를 불러와 tfidftrans라는 변수로 지정하고 재사용한다.
참고로 TfidfVectorizer()를 사용하면 CountVectorizer()와 TfidfTransformer()를 한 번에 처리해 준다. CountVectorizer()와 TfidfTransformer()를 따로 사용할 때는 빈도 기반의 단어 가방과 TF-IDF 가중치를 적용한 값을 비교할 수 있다. TfidfVectorizer()를 사용하는 것이 더 간단하지만 목적에 맞는 방법을 선택하자.
# TfidfTransformer를 불러와서 가중치를 주어 벡터화 # transformer라는 변수로 저장하고 재사용한다. from sklearn.feature_extraction.text import TfidfTransformer tfidftrans = TfidfTransformer(smooth_idf=False) tfidftrans