from sklearn.feature_extraction.text import CountVectorizer
    vectorizer = CountVectorizer(analyzer = 'word', # 어절 기준 벡터화 ————
                                 tokenizer = None, # 토크나이저 ————
                                 preprocessor = None, # 전처리 도구
                                 stop_words = None,  # 불용어
                                 min_df = 2, # 최소 문서 개수 ————
                                 ngram_range=(1, 3), # BOW의 단위 ————
                                 max_features = 2000 # 피처의 수  ————
                                )
    vectorizer

    실행 결과

    CountVectorizer(max_features=2000, min_df=2, ngram_range=(1, 3))

     

    벡터화가 끝나면 fit_transform()으로 학습 데이터를 TF-IDF로 정규화한다. fit(), transform()fit_transform()을 구분해서 작업한다(fit(), transform()fit_transform()의 차이는 4.1절의 설명을 참고하기 바란다). 여기서는 fit_transform()으로 단어 사전을 학습하고 단어와 문서 행렬을 반환한다. 이번에도 %%time으로 작업하는 데 걸리는 시간을 확인해 보자.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.