더북(TheBook)

위 코드를 어떻게 설정했는지 살펴보자.

 

analyzer='char'를 사용해 문서를 잘라 주었다.

ngram_range=(1, 5)를 사용해 문자가 1 이상 5 이하인 것만 오도록 했다.

max_features=30으로 학습할 단어의 개수를 제한했다.

불용어는 따로 설정하지 않았다. 그래서 출력 결과를 보면 ‘니다’나 ‘합니다’와 같은 표현이 모든 문서에서 나타난다. 5장에서는 성능 개선을 위해 불용어 리스트를 사용할 예정이다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.