더북(TheBook)
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(analyzer = 'word', # 어절 기준 벡터화 ————
                             tokenizer = None, # 토크나이저 ————
                             preprocessor = None, # 전처리 도구
                             stop_words = None,  # 불용어
                             min_df = 2, # 최소 문서 개수 ————
                             ngram_range=(1, 3), # BOW의 단위 ————
                             max_features = 2000 # 피처의 수  ————
                            )
vectorizer

실행 결과

CountVectorizer(max_features=2000, min_df=2, ngram_range=(1, 3))

 

벡터화가 끝나면 fit_transform()으로 학습 데이터를 TF-IDF로 정규화한다. fit(), transform()fit_transform()을 구분해서 작업한다(fit(), transform()fit_transform()의 차이는 4.1절의 설명을 참고하기 바란다). 여기서는 fit_transform()으로 단어 사전을 학습하고 단어와 문서 행렬을 반환한다. 이번에도 %%time으로 작업하는 데 걸리는 시간을 확인해 보자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.