■ 지도 학습 사례 살펴보기2 - 회귀
다음으로 지도 학습은 회귀(regression)에 사용됩니다. 회귀란 연속적인 값을 예측하는 것입니다. 일상 생활에서 연속적인 값을 예측하는 문제는 아주 다양합니다. 예를 들어 주식을 예측하는 문제, 학생의 성적을 예측하는 문제, 집값을 예측하는 문제, 물건의 가격을 예측하는 문제와 같이 말이죠.
이와 같이 연속적인 값을 예측하는 문제는 분류와는 분명히 다릅니다. 분류는 특정한 값, 즉 데이터의 정답 개수(레이블의 수)에 따라 분류하는 가짓수가 결정됩니다. 하지만 예측은 그렇지 않습니다. 특정한 값만 예측할 수 있는 것이 아니라 다양한 값을 예측할 수 있습니다.
예를 들어서 집값을 예측하는 문제를 살펴볼까요? 미국 보스톤의 집값을 예측하는 데 사용할 수 있는 데이터가 있습니다. 이 데이터는 총 13가지 특징 데이터가 있으며, 그 특징 데이터에는 집에 있는 방의 개수, 범죄율, 고속도로 접근성, 재산세율, 교사/학생 비율 같은 내용이 있습니다. 그리고 각 데이터의 정답 또한 들어 있는데, 바로 그 집값(가격)입니다.
표 2-1 | 미국 보스톤 집값 데이터
방의 개수 |
범죄율 |
고속도로 접근성 |
… |
가격(단위 $1,000) |
|
1 |
3 |
0.0025 |
0.54 |
… |
42 |
2 |
2 |
0.0035 |
0.74 |
… |
40 |
3 |
4 |
0.0032 |
0.24 |
… |
15 |
4 |
3 |
0.0006 |
0.91 |
52 |
|
5 |
… |
… |
… |
… |
… |
이와 같이 데이터로 집값을 예측하는 인공지능을 만들 수 있습니다. 앞에서 살펴본 것처럼 암이냐, 암이 아니냐와 같이 특정한 상황 중 하나의 상황을 정하는 것이 아니라, 특정한 범위의 집값과 같이 연속된 값들 중에 특정한 하나의 값을 예측하는 것이죠.