더북(TheBook)

데이터 과학을 위한 기법: 데이터 마이닝

데이터 과학을 이해하려면 기법과 도구에 대한 이해가 필요하다. 데이터 과학을 하기 위한 기법인 데이터 마이닝(data mining)은 데이터에서 유의미한 트렌드와 패턴, 규칙을 발견하고자 대량의 데이터에서 자동화 혹은 반자동화 방법으로 데이터를 탐색하고 분석하는 과정이다.1 여기서 마이닝이란 용어는 지하에 묻힌 광물을 찾아낸다는 의미에서 나온 것으로, 데이터 분석을 이에 비유하여 사용되었다. 이러한 데이터 마이닝을 이해하고자 그 정의를 좀 더 구체적으로 살펴보겠다.

데이터 마이닝이란 대용량의 데이터를 분석해서 이해하고, 앞으로의 사건에 대한 예측까지를 목표로 한다. 즉, 데이터의 관계, 패턴, 규칙 등을 찾아내어 이를 체계적이고 통계적으로 모형화하여 이전에는 알지 못했던 유용한 지식을 발견하는 일련의 과정을 의미하는 것이다.2 또 다른 정의에 따르면 데이터 마이닝은 기존 통계학과는 다르게 대용량의 관측 가능한 데이터를 대상으로 하며 자료에 대한 탐색적인 분석을 중시한다고 한다.

결국 데이터 마이닝은 전산 시스템에 저장하거나 저장할 수 있는 대용량의 데이터를 가공·분석하고, 통계 모형, 수학적 기법, 패턴 인식부터 머신 러닝에 이르는 방법론까지 적용하여, 통계적 규칙이나 패턴을 체계적이고 자동적으로 찾아 분석하고, 가치 있는 의미를 찾아내는 과정이라고 볼 수 있다. 이는 데이터를 기반으로 한 의사 결정 과정에서 이미 많이 활용되는 기법이다. 예를 들어 신용 평점 시스템(credit scoring system)의 신용평가모형 개발, 사기 탐지 시스템(fraud detection system), 장바구니 분석(market basket analysis), 최적 포트폴리오 구축, 웹 로그 분석, 소셜 미디어 분석을 통한 선거 전략 수립 등과 같이 다양한 산업과 분야에서 많이 활용된다.

데이터 과학은 데이터를 기반으로 현상을 해석하고 솔루션을 제시한다. 예를 들어 온라인 마케팅 용어로 ‘그로스 해킹(Growth Hacking)’이 있다. 그로스 해킹은 데이터를 기반으로 마케팅에 정량적으로 접근하고 의사 결정하는 것을 의미하며, 온라인 기반 산업에서 활발하게 이용되고 있다. 물론 데이터가 현실을 충분하게 반영하지 못한다면 모형도 현실을 충분히 반영하지 못할 수 있는 위험이 있다. 그래서 데이터 수집부터 편향(bias)이 발생하지 않게 주의해야 하며, 분석할 때도 현실 관점에서 데이터를 균형 있게 이해하도록 주의해야 한다.

데이터 과학에서 무엇보다 항상 염두에 두어야 하는 것은 ‘창의적인 관점에서 데이터에 접근하는 것’이다. 같은 데이터가 주어진 상태에서, 여러 명의 분석가가 같은 분석 도구를 활용한다면 어느 정도 비슷한 결과물을 얻을 수 있다. 하지만 같은 데이터라 하더라도 창의적인 관점에서 데이터를 바라보고 직관으로 분석한다면 더 가치 있는 결과물을 이끌어 낼 수 있다. 또한, 데이터를 분석하면 분석 자체에만 집중하여 나무가 아닌 숲을 보는, 즉 전체를 볼 수 있는 시야와 창의적인 관점을 잃어버리기가 쉽다. 같은 데이터에, 같은 접근 방법으로, 같은 도구를 통해 얻은 유사한 결과로 큰 가치를 만들기는 어렵다. 그렇기 때문에 쉽지는 않지만, 빅데이터로부터 좀 더 가치 있는 결과를 끌어내려면 데이터에 대해 항상 고민하고 남들이 보지 않는 새로운 관점으로 데이터를 대하는 노력이 필요하다.

 

 


1 Gordon S. Linoff, Michael J. A. Berry, Data Mining Techniques, Wiley & Sons, 1997

2 David J. Hand, principle of Datamining, MIT press, 2001

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.