더북(TheBook)

띄어쓰기(word) 단위가 아니라 낱글자(character) 단위로 벡터화하려면 analyzer='char'로 지정한다.

tokenizer = None이 기본값이다.3

min_df = n으로 토큰이 나타날 최소 문서 개수를 지정해서 오타나 자주 나오지 않는 특수한 전문 용어를 제거할 수 있다.

분석하려는 데이터를 보면 3어절 이상인 강의가 대부분이어서 ngram_range는 3 이상으로 지정했다.

3~6까지 묶어서 나오는 강의는 최대 2,000개까지 가능하도록 지정했다.

# 사이킷런의 CountVectorizer를 통해 벡터화
from sklearn.feature_extraction.text import CountVectorizer
 
vectorizer = CountVectorizer(
    analyzer = 'word', # 낱글자 단위로 벡터화할 수도 있음()
    tokenizer = None, # 토크나이저를 따로 지정할 수 있음()
    preprocessor = None, # 전처리 도구
    stop_words = None,   # 불용어 nltk 등의 도구를 사용할 수 있음
    min_df = 2,        # 토큰이 나타날 최소 문서 개수()
    ngram_range=(3, 6),     # BOW의 단위 개수의 범위를 지정()
    max_features = 2000     # 만들 피처의 수, 단어의 수()
    )
vectorizer
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.