모두의 한국어 텍스트 분석 with 파이썬: LESSON 08 단어 벡터화하기

TIP

TfidfVectorizer()에서 사용할 수 있는 주요 매개 변수

• analyzer: 단어, 문자 단위의 벡터화 방법 정의로, 단어, 문자 단위로 설정한다. 문자열 {'word', 'char', 'char_wb'} 또는 함수가 가능하다. tokenizer도 기본값인데 그 외에 함수로 입력할 수 있다.

• max_df: 정수 또는 [0.0, 1.0] 사이의 실수로 문서 빈도가 주어진 임곗값보다 높은 단어(코퍼스 관련 불용어)는 제외한다. (기본값=1.0)

예) min_df = 10: 문서에 10개보다 작은 빈도로 나타나는 단어는 제외한다.

• min_df: 정수 또는 [0.0, 1.0] 사이의 실수로, 단어장에 포함되기 위한 최소 빈도다. (기본값=1.0)

예) min_df = 0.01: 문서의 1% 미만으로 나타나는 단어는 제외한다.

• ngram_range: BOW 단위 수 (1, 3)이라면 1~3개까지 토큰을 묶어서 벡터화한다.

• stop_words: 불용어를 정의한다. 한국어는 list에 단어를 지정해 설정할 수 있다. (기본값=None)

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.