더북(TheBook)

LESSON 06
TF-IDF로 가중치를 주어 벡터화하기

앞에서는 빈도수를 기반으로 벡터를 만들었다. 전체 문서에 자주 등장하지 않더라도 해당 문서에 자주 등장하는 단어라면 중요한 단어로 볼 수 있다. 4장에서 다룬 TF-IDF 가중치를 적용하기 위해 TfidfTransformer()를 불러와 tfidftrans라는 변수로 지정하고 재사용한다.

참고로 TfidfVectorizer()를 사용하면 CountVectorizer()TfidfTransformer()를 한 번에 처리해 준다. CountVectorizer()TfidfTransformer()를 따로 사용할 때는 빈도 기반의 단어 가방과 TF-IDF 가중치를 적용한 값을 비교할 수 있다. TfidfVectorizer()를 사용하는 것이 더 간단하지만 목적에 맞는 방법을 선택하자.

# TfidfTransformer를 불러와서 가중치를 주어 벡터화
# transformer라는 변수로 저장하고 재사용한다.
from sklearn.feature_extraction.text import TfidfTransformer
tfidftrans = TfidfTransformer(smooth_idf=False)
tfidftrans
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.