더북(TheBook)

1 | 문서를 토큰 리스트로 변환한다.

2 | 각 문서에서 토큰의 출현 빈도를 센다.

3 | 각 문서를 BOW 인코딩 벡터로 변환한다.

4 | 사용할 수 있는 주요 매개 변수

analyzer: 단어, 문자 단위의 벡터화 방법 정의

ngram_range: BOW 단위 수가 (1, 3)이면 1~3개까지 토큰을 묶어서 벡터화

max_df: 문서 빈도가 주어진 임곗값보다 높은 단어(코퍼스 관련 불용어)는 제외(기본값=1.0)

· max_df = 0.90: 문서의 90% 초과로 나타나는 단어 제외

· max_df = 10: 문서에 10개 초과로 나타나는 단어 제외

min_df: 문서 빈도가 주어진 임곗값보다 낮은 단어는 제외(기본값=1.0, 컷오프라고도 한다)

· min_df = 0.01: 문서의 1% 미만으로 나타나는 단어 제외

· min_df = 10: 문서에 10개 미만으로 나타나는 단어 제외

stop_words: 불용어 정의

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.