더북(TheBook)

◼︎ CountVectorizer

CountVectorizer로 단어 가방을 만들 때 사용할 수 있는 기능은 다음과 같다. 조금 뒤에 이 중 몇 가지를 사용해 볼 것이다.

 

CountVectorizer의 주요 매개 변수2

analyzer: 단어, 문자 단위의 벡터화 방법 정의

ngram_range: BOW 단위 수가 (1, 3)이라면 1~3개까지 토큰을 묶어서 벡터화

max_df: 주어진 임곗값보다 빈도가 높은 단어(불용어)를 제외하는 방법

· 기본값은 1.0으로 100%를 의미

· max_df = 0.90: 문서의 90%까지 사용. 그보다 큰 단어는 제외

· max_df = 10: 10개까지 등장하는 단어를 사용. 그보다 큰 단어는 제외

min_df: 컷오프라고도 하며 주어진 임곗값보다 빈도가 낮은 단어를 제외하는 방법

· 기본값은 1.0으로 1번 이상 등장하는 단어를 의미

· min_df = 0.01: 문서의 1% 이상 등장하는 단어를 사용. 그보다 적은 단어는 제외

· min_df = 10: 문서에 10개 이상 등장하는 단어를 사용. 그보다 적은 단어는 제외

stop_words : 불용어 정의

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.