from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(analyzer = 'word', # 어절 기준 벡터화 ————➊ tokenizer = None, # 토크나이저 ————➋ preprocessor = None, # 전처리 도구 stop_words = None, # 불용어 min_df = 2, # 최소 문서 개수 ————➌ ngram_range=(1, 3), # BOW의 단위 ————➍ max_features = 2000 # 피처의 수 ————➎ ) vectorizer
실행 결과
CountVectorizer(max_features=2000, min_df=2, ngram_range=(1, 3))
벡터화가 끝나면 fit_transform()으로 학습 데이터를 TF-IDF로 정규화한다. fit(), transform()과 fit_transform()을 구분해서 작업한다(fit(), transform()과 fit_transform()의 차이는 4.1절의 설명을 참고하기 바란다). 여기서는 fit_transform()으로 단어 사전을 학습하고 단어와 문서 행렬을 반환한다. 이번에도 %%time으로 작업하는 데 걸리는 시간을 확인해 보자.