모두의 한국어 텍스트 분석 with 파이썬: 6 단어 벡터화하기

slide 1 of 18, currently active
slide 2 of 18
slide 3 of 18
slide 4 of 18
slide 5 of 18
slide 6 of 18
slide 7 of 18
slide 8 of 18
slide 9 of 18
slide 10 of 18
slide 11 of 18
slide 12 of 18
slide 13 of 18
slide 14 of 18
slide 15 of 18
slide 16 of 18
slide 17 of 18
slide 18 of 18

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(analyzer = 'word', # 어절 기준 벡터화 ————➊
                             tokenizer = None, # 토크나이저 ————➋
                             preprocessor = None, # 전처리 도구
                             stop_words = None,  # 불용어
                             min_df = 2, # 최소 문서 개수 ————➌
                             ngram_range=(1, 3), # BOW의 단위 ————➍
                             max_features = 2000 # 피처의 수  ————➎
                            )
vectorizer

실행 결과

CountVectorizer(max_features=2000, min_df=2, ngram_range=(1, 3))

벡터화가 끝나면 fit_transform()으로 학습 데이터를 TF-IDF로 정규화한다. fit(), transform()과 fit_transform()을 구분해서 작업한다(fit(), transform()과 fit_transform()의 차이는 4.1절의 설명을 참고하기 바란다). 여기서는 fit_transform()으로 단어 사전을 학습하고 단어와 문서 행렬을 반환한다. 이번에도 %%time으로 작업하는 데 걸리는 시간을 확인해 보자.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.