얼핏 봐도 개는 몸무게가 덜 나가고 대체로 빠르지만, 곰은 무겁고 대체로 느리다. 이제 개와 곰을 나누는 선을 하나 그려 보자. 이 선을 결정 경계(decision boundary)라고 하며, 미래에 만날 동물의 우호 여부를 예측하는 데 사용할 수 있다. 다시 말해, 새로운 동물을 만날 때마다 몸무게와 달리기 속도를 측정하고 경계 어느 쪽에 속하는지 알아본다. 왼쪽에 속하면 우호적이고, 오른쪽에 속하면 적대적이라는 뜻이다.
하지만 이 예제는 데이터가 너무 적고 현실과 거리가 멀다. 측정 항목이 수백 가지라면 어떨까? 100차원이 넘는 차트가 필요하고 사람이 직접 결정 경계를 그릴 수도 없다. 하지만 머신 러닝은 이를 간단하게 해결할 수 있다.
예제로 다시 돌아가보자. 머신 러닝 알고리즘의 역할은 데이터셋을 잘 나누는 최적의 결정 경계를 학습하는 것이다. 이상적인 결정 경계는 그림 1-2처럼 두 클래스를 완벽하게 나누는 선이다(물론 완벽하게 나누기 어려운 데이터도 많다).
▲ 그림 1-2 이상적인 결정 경계