1.4.1 텍스트 마이닝으로 살펴본 비정형 데이터의 분석
앞서 살펴본 바와 같이 정형 데이터는 분석에서 많이 사용되는 행과 열로 표현된 데이터 형태이다. 그렇지만 최근에는 비정형 데이터에 대한 관심이 크게 증가하고 있으며, 비정형 데이터를 활용하는 수요도 많아지고 있다. 그렇다면 왜 비정형 데이터의 중요성이 점차 커지는 것일까?
사실 전세계적으로 데이터 대부분이 비정형(unstructured formats)으로 되어 있다. 최근, 그중에서도 텍스트 데이터에 대한 활용이 많이 이뤄지고 있다. 이러한 텍스트로 주어지는 비정형 데이터는 디지털화된 데이터임을 전제로 하는데, 예를 들어 웹 사이트의 콘텐츠, PDF 문서, 그외 전자 파일 형태로 저장된 텍스트 데이터이다. 이러한 비정형 텍스트 데이터를 분석하는 것을 텍스트 마이닝이라고 한다. 텍스트 마이닝의 가장 중요한 과정 중 하나는 바로 비정형 텍스트 데이터를 정형화하는 것이다.
예를 들어 비정형 데이터에서 텍스트로 표현되는 신문 기사에 대해 살펴보자. 그림 1-24는 온라인 상에서 보이는 신문 기사 4개의 일부다.
▲ 그림 1-24 비정형 데이터의 예