더북(TheBook)

지도 학습은 목적에 따라 추론을 잘하는 기법과 예측을 잘하는 기법으로 나뉠 수 있다. 사실 통계학적 방법과 머신 러닝의 기법은 데이터 분석에 있어 방점을 두는 부분이 미묘하게 다르다. 통계학적 방법은 데이터 분석을 통한 추론을 강조한다. 추론이 우수한 기법은 예측이 떨어질 수 있는 반면 예측이 우수한 기법은 추론이 약해지는 셈이다.

추론 관점의 데이터 분석에서는 왜 이런 분석 결과가 나왔는지를 설명할 수 있으며, 이는 데이터 분석에 상당히 중요한 의의를 갖는다. 데이터 분석은 목적 지향적인 활동이어서 데이터 분석의 결과는 조직이나 기관이 의사 결정이나 다른 활동을 할 때 많은 영향을 미친다. 그 과정에서 통계적 기법이 데이터를 기반으로 현상을 설명하는 것은 의사 결정할 때 매우 큰 장점이 된다. 반면 통계적 기법은 노이즈가 많은 현실 데이터를 반영하여 설명하다 보니 통계적 가정과 딱 들어맞지 않는 경우가 생기기도 하고, 예측할 때 오차가 생각보다 크게 발생하기도 한다.

이러한 오차를 줄이기 위해 예측을 잘 할 수 있는 다른 데이터 분석 기법을 찾게 되는데, 그게 바로 머신 러닝이다. 머신 러닝은 결과를 도출하는 과정에서 왜 이런 결과가 나왔는지 이해하기어려운 경우가 종종 발생한다. 예를 들면 그림 8-5는 딥러닝에 많이 활용되는 손글씨 숫자 인식에 사용되는 이미지이다. 딥러닝은 수만 개의 손글씨 숫자 이미지를 입력받으면 이미지의 숫자를 인식하고 분류한다.

▲ 그림 8-5 손글씨 숫자 인식 예시(출처: MNIST)

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.