3단계: 불용어 제거하기
텍스트 마이닝과 정보 검색에서는 큰 의미가 없으면서 가장 빈번하게 사용되는 단어가 있다. 영어에서는 the, of, and, to 등이 있고, 한글에서는 조사나 접속사 등이 이에 해당하는데, 이를 불용어(stop words)라 한다. 이러한 불용어는 영어 기준으로 대략 400~500개 단어 정도 있다. 분야나 상황에 따라 다를 수 있지만, 일반적으로 영어 텍스트에서 불용어는 전체 단어의 20~30%를 차지하며, 한글에도 생각보다 많은 단어가 해당된다. 이러한 불용어를 제거하면 텍스트 마이닝의 결과인 DTM에서 열의 수가 줄어드는 효과가 있다. 따라서 이 과정을 거치면 처리하고 분석할 데이터의 크기가 줄어든다.
4단계: 어간 추출하기
어간 추출(stemming)은 단어의 어간(root 또는 stem)을 찾는 기법이다. 즉, 같은 의미인데 문장에서 여러 형태로 사용되는 단어의 경우에 어간을 찾아서 한 단어로 치환하는 역할을 한다. 예를 들어 user, users, used, using이라는 단어에는 모두 use라는 의미가 있다. 물론 단어별로 미묘한 뉘앙스나 용법의 차이가 있지만, 우리는 다량의 문헌에서 대략적 의미를 파악해야 하므로 어간을 추출한다.
예를 들어 engineering, engineered 등의 단어는 engineer로 치환할 수 있다. 이러한 어간 추출로 불용어 제거와 같이 DTM에서 열의 수를 줄일 수 있다. 이렇게 처리하고 분석할 데이터의 크기를 줄이면 궁극적으로는 정보 검색과 텍스트 마이닝의 성능을 향상시킬 수 있다.
이 과정을 거치면 보통 영어 텍스트에서는 40~50% 정도 데이터의 크기가 줄어든다. 단, 어간 추출을 통해서 단어의 형태가 어간만을 나타낼 경우 이를 다시 표제어로 바꿔주는 과정을 거칠 수 있으며, 이를 표제어 추출(lemmatization)이라 부른다.