머신 러닝을 위한 수학 with 파이썬, R: 1.4.1 텍스트 마이닝으로 살펴본 비정형 데이터의 분석

또한, DTM의 값은 각 단어의 출현 빈도를 사용하거나 가중치가 적용된 출현 빈도를 사용한다. 또는 출현 여부로 1과 0으로만 표시할 수도 있다. 이 부분에 대해서는 이후에 좀 더 구체적으로 살펴보겠다.

이제 비정형 텍스트 데이터를 정형화하는 텍스트 마이닝의 절차를 하나씩 살펴보자. 일반적으로 다음과 같은 단계를 거치게 된다.

1단계: 텍스트 마이닝 대상이 되는 코퍼스(corpus)를 준비
2단계: 코퍼스에 대해 숫자나 문장 부호 등을 제거(영문인 경우 모두 소문자로 변환)
3단계: 불용어(stop words) 제거
4단계: 어간 추출(stemming)
5단계: DTM 생성

1단계: 텍스트 마이닝 대상이 되는 코퍼스를 준비하기

이 단계에서는 분석 대상인 비정형 텍스트 데이터들을 준비해야 한다. 텍스트 마이닝은 다수의 텍스트 데이터, 즉 문헌을 분석하는 데 그 문헌들의 집합을 코퍼스(corpus)라 부른다. 그 형태는 한 파일로 제공될 수 있고, 문헌별로 파일이 별도로 제공되거나 웹 페이지에 존재할 수도 있다. 경우에 따라 적절한 방법을 사용하여 해당 문헌을 수집하고 정리해야 하는데, 중요한 것은 각 문헌이 분리되어 식별이 가능해야 한다는 것이다.

2단계: 코퍼스에 대해 숫자나 문장 부호 등을 제거하기

코퍼스에서 숫자나 문장 부호 등을 제거한다. 숫자나 문장 부호가 나타내는 문장의 뉘앙스가 있겠지만, 텍스트 마이닝은 다량의 문헌에서 대략적인 의미를 파악하는 것을 목표로 하므로 해석하는 경우의 수를 단순화하고자 숫자나 문장 부호를 제거하는 것이 좋다. 영어의 경우에는 모두 소문자로 변환한다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.