단어들의 출현 빈도(frequency)로 여러 문서를 벡터화하기 위해 CountVectorizer()를 불러온다.
from sklearn.feature_extraction.text import CountVectorizer cv = CountVectorizer(stop_words=["돋움", "경우", "또는"])
fit_transform()을 사용해 문장에서 노출되는 feature(특징이 될 만한 단어) 수를 합한 변수, dtm(문서 단어 행렬)을 생성한다.
dtm_cv = cv.fit_transform(df["문서"])
cv.vocabulary_를 통해 어떤 단어들의 집합이 있는지 확인할 수 있다.
cv.vocabulary_
실행 결과
{'아빠': 30166, '육아휴직': 35794, '장려금': 40098, '업무개요': 31494, …}