➊ 띄어쓰기(word) 단위가 아니라 낱글자(character) 단위로 벡터화하려면 analyzer='char'로 지정한다.
➋ tokenizer = None이 기본값이다.3
➌ min_df = n으로 토큰이 나타날 최소 문서 개수를 지정해서 오타나 자주 나오지 않는 특수한 전문 용어를 제거할 수 있다.
➍ 분석하려는 데이터를 보면 3어절 이상인 강의가 대부분이어서 ngram_range는 3 이상으로 지정했다.
➎ 3~6까지 묶어서 나오는 강의는 최대 2,000개까지 가능하도록 지정했다.
# 사이킷런의 CountVectorizer를 통해 벡터화 from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer( analyzer = 'word', # 낱글자 단위로 벡터화할 수도 있음(➊) tokenizer = None, # 토크나이저를 따로 지정할 수 있음(➋) preprocessor = None, # 전처리 도구 stop_words = None, # 불용어 nltk 등의 도구를 사용할 수 있음 min_df = 2, # 토큰이 나타날 최소 문서 개수(➌) ngram_range=(3, 6), # BOW의 단위 개수의 범위를 지정(➍) max_features = 2000 # 만들 피처의 수, 단어의 수(➎) ) vectorizer