예를 들어 집값을 예측하는 문제를 살펴볼까요? 미국 보스톤의 집값을 예측할 수 있는 데이터가 있습니다. 이 데이터에는 총 13가지 특징 데이터가 있는데 집에 있는 방 개수, 범죄율, 고속도로 접근성, 재산세율, 교사/학생 비율 같은 내용입니다. 그리고 각 데이터의 정답 또한 들어 있는데, 바로 집값(가격)입니다.
표 2-1 미국 보스톤 집값 데이터
|
|
방 개수 |
범죄율 |
고속도로 접근성 |
… |
가격(단위 $1,000) |
|
1 |
3 |
0.0025 |
0.54 |
… |
42 |
|
2 |
2 |
0.0035 |
0.74 |
… |
40 |
|
3 |
4 |
0.0032 |
0.24 |
… |
15 |
|
4 |
3 |
0.0006 |
0.91 |
… |
52 |
|
5 |
… |
… |
… |
… |
… |
이와 같이 데이터로 집값을 예측하는 인공지능을 만들 수 있습니다. 앞에서 살펴보았듯이 암인지 아닌지처럼 특정한 상황 중 하나의 상황을 정하는 것이 아니라, 특정한 범위의 집값처럼 연속된 값 중에 특정한 하나의 값을 예측하는 것이죠.