더북(TheBook)

여기서 잠깐 데이터 분석의 두 가지 목적인 예측(prediction)과 추론(inference)을 생각해보자. 추론은 YX가 어떤 영향을 주었는지를 설명하는 것이고 예측은 X를 사용해서 Y를 예측하는 것이다. 기존에는 추론에 강한 방법이 많이 활용되었다. 의사 결정에 활용할 수 있으며, 통계학적인 근거가 있고 결과를 설명할 수 있다는 점에서 추론을 잘하는 기법은 굉장히 매력적이다. 우리가 살펴본 선형 회귀 분석이 그 대표적인 예이다.

머신 러닝의 모형들은 예측력이 좋지만 설명력이 떨어지는 성향이 있어서 흔히 블랙 박스(black box) 모형이라 부른다. 결과가 왜 그렇게 잘 나왔는지를 설명하기 어려울 때가 있기 때문이다. 물론 설명한다 하더라도 선형 회귀 분석만큼 잘 설명하지는 못한다. 이렇듯 머신 러닝 스타일의 기법은 추론보다는 예측을 더 잘하는 편이며, 이러한 머신 러닝의 부상과 함께 예측력이 더 많이 개선되고, 이에 대한 선호도도 높아지고 있다. 그러다 보니 그림 8-3에서 볼 수 있는 것처럼, 머신 러닝 모형들의 등장과 확산으로 추론에서 예측으로 무게 중심이 이동하는 경향이 있다. 그렇다고 추론이 중요하지 않다는 것이 아니다. 즉, 추론은 여전히 데이터 분석에서 중요한 한 축이고, 그동안 상대적으로 약했던 예측력이 머신 러닝의 발전으로 인해 개선되는 것으로 이해할 수 있다.

▲ 그림 8-3 데이터 분석 패러다임의 변화

흥미롭게도 이러한 블랙 박스 모형이 부각될수록 재료가 되는 데이터에 대한 중요성이 더 커지고 있다. 만약 우리가 관심을 갖는 어떤 분야의 데이터를 수집하고 관리할 수 있다면 머신 러닝을 통해 원하는 값을 예측할 수 있다. 물론 이 경우, 설명은 일정 부분 포기해야 한다. X를 통해 Y가 설명되는 것보다 주어진 X를 갖고 Y를 최선으로 예측한다. 결국 더 많은, 더 다양한 데이터를 이용하면 예측을 개선할 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.