from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer(stop_words=["돋움", "경우", "또는", "있습니다", "있는", "합니다"]) tfidf
실행 결과
TfidfVectorizer(stop_words=['돋움', '경우', '또는', '있습니다', '있는', '합니다'])
dtm(문서 단어 행렬)을 생성한다. 문장에서 노출되는 feature(특징이 될 만한 단어) 수를 합한 변수다.
dtm_tfidf = tfidf.fit_transform(df["문서"])
실행 결과
# tfidf.vocabulary_ cols_tfidf = tfidf.get_feature_names()