위 코드를 어떻게 설정했는지 살펴보자.
• analyzer='char'를 사용해 문서를 잘라 주었다.
• ngram_range=(1, 5)를 사용해 문자가 1 이상 5 이하인 것만 오도록 했다.
• max_features=30으로 학습할 단어의 개수를 제한했다.
• 불용어는 따로 설정하지 않았다. 그래서 출력 결과를 보면 ‘니다’나 ‘합니다’와 같은 표현이 모든 문서에서 나타난다. 5장에서는 성능 개선을 위해 불용어 리스트를 사용할 예정이다.