더북(TheBook)

07 | 문서 분류

문서 분류Document Classification는 주어진 문서를 하나 이상의 분류로 구분하는 문제다.[18] 이메일을 보고 해당 이메일이 스팸인지 아닌지를 구분하는 것이 문서 분류의 가장 흔한 예다. 또 다른 예로는 제품 리뷰 글을 보고 해당 리뷰가 제품에 대한 긍정적인 리뷰인지 부정적인 리뷰인지를 구분하는 감성 분석Sentiment Analysis이 있다.

이 절에서는 텍스트 마이닝Text Mining 패키지인 tm[19]을 사용한 문서 분류 방법에 대해 설명한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.