1 | 문서를 토큰 리스트로 변환한다.
2 | 각 문서에서 토큰의 출현 빈도를 센다.
3 | 각 문서를 BOW 인코딩 벡터로 변환한다.
4 | 사용할 수 있는 주요 매개 변수
• analyzer: 단어, 문자 단위의 벡터화 방법 정의
• ngram_range: BOW 단위 수가 (1, 3)이면 1~3개까지 토큰을 묶어서 벡터화
• max_df: 문서 빈도가 주어진 임곗값보다 높은 단어(코퍼스 관련 불용어)는 제외(기본값=1.0)
· max_df = 0.90: 문서의 90% 초과로 나타나는 단어 제외
· max_df = 10: 문서에 10개 초과로 나타나는 단어 제외
• min_df: 문서 빈도가 주어진 임곗값보다 낮은 단어는 제외(기본값=1.0, 컷오프라고도 한다)
· min_df = 0.01: 문서의 1% 미만으로 나타나는 단어 제외
· min_df = 10: 문서에 10개 미만으로 나타나는 단어 제외
• stop_words: 불용어 정의