8.1 데이터 분석에서 머신 러닝의 부상
최근에 관심을 많이 받고, 심지어는 만병통치약으로 여겨지는 ‘머신 러닝’을 살펴보자. 머신 러닝(machine learning)이란 기계적인 알고리즘을 바탕으로 데이터를 분석하는 기법을 총칭한다. 사실 데이터를 분석하는 방법은 다양하지만, 그중에서도 최근 괄목할 정도로 발전하는 컴퓨팅 성능을 십분 활용하는 머신 러닝이 주목을 많이 받고 있다. 머신 러닝이 데이터 분석을 대표하는 용어로 많이 사용되지만 이 용어는 원래 데이터를 분석하는 알고리즘을 의미한다.
이러한 머신 러닝이라는 용어는 1950~60년대부터 사용되기 시작하였으며 그 이후의 시기를 거쳐 발전했다. 그렇다면 머신 러닝 이전, 그리고 머신 러닝이 막 발전하기 시작한 시기에는 데이터 분석을 할 수 없었을까? 당연히 그렇지 않다. 그 기간 동안에는 앞에서 본 수학적인 개념을 바탕으로, 우리가 ‘통계적 방법론’이라고 불리는 통계학에서 잘 정립된 모형을 활용해서 데이터를 분석해왔다. 사실, 머신 러닝도 이러한 통계적인 방법을 활용하여 발전해 왔다. 이제는 데이터 분석 방법에 있어, 기존보다 선택의 여지가 많아졌으며, 이로 인해 우리는 데이터로부터 새로운 의미를 더 잘 찾아낼 수 있게 되었다. 이와 함께 컴퓨팅 기술이 비약적으로 발전하여 대용량 데이터를 분석하는 다양한 머신 러닝 알고리즘이 고안되고 있다.
▲ 그림 8-1 데이터 분석을 위한 머신 러닝 알고리즘