더북(TheBook)
from sklearn.feature_extraction.text import TfidfVectorizer
 
tfidf = TfidfVectorizer(stop_words=["돋움", "경우", "또는", "있습니다", "있는", "합니다"])
tfidf

실행 결과

TfidfVectorizer(stop_words=['돋움', '경우', '또는', '있습니다', '있는', '합니다'])

 

dtm(문서 단어 행렬)을 생성한다. 문장에서 노출되는 feature(특징이 될 만한 단어) 수를 합한 변수다.

dtm_tfidf = tfidf.fit_transform(df["문서"])

실행 결과

# tfidf.vocabulary_
cols_tfidf = tfidf.get_feature_names()
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.