문서 분류Document Classification는
주어진 문서를 하나 이상의 분류로 구분하는 문제다.[18] 이메일을
보고 해당 이메일이 스팸인지 아닌지를 구분하는 것이 문서 분류의 가장 흔한
예다. 또 다른 예로는 제품 리뷰 글을 보고 해당 리뷰가 제품에 대한
긍정적인 리뷰인지 부정적인 리뷰인지를 구분하는 감성 분석Sentiment Analysis이 있다.
이 절에서는 텍스트 마이닝Text Mining
패키지인 tm[19]을 사용한
문서 분류 방법에 대해 설명한다.