더북(TheBook)

단어들의 출현 빈도(frequency)로 여러 문서를 벡터화하기 위해 CountVectorizer()를 불러온다.

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(stop_words=["돋움", "경우", "또는"])

fit_transform()을 사용해 문장에서 노출되는 feature(특징이 될 만한 단어) 수를 합한 변수, dtm(문서 단어 행렬)을 생성한다.

dtm_cv = cv.fit_transform(df["문서"])

cv.vocabulary_를 통해 어떤 단어들의 집합이 있는지 확인할 수 있다.

cv.vocabulary_

실행 결과

{'아빠': 30166,
 '육아휴직': 35794,
 '장려금': 40098,
 '업무개요': 31494,
…}
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.