회귀: 연속적인 출력 값 예측
이전 절에서 분류 작업은 범주형 순서가 없는 레이블을 샘플에 할당하는 것이라고 배웠습니다. 두 번째 지도 학습의 종류는 연속적인 출력 값을 예측하는 회귀 분석입니다. 회귀는 예측 변수(predictor variable)(또는 설명 변수(explanatory variable))와 연속적인 반응 변수(response variable)(또는 결과(outcome))가 주어졌을 때 출력 값을 예측하기 위해 두 변수 사이의 관계를 찾습니다.
머신 러닝 분야에서는 예측 변수를 보통 “특성(feature)”이라고 부르며, 반응 변수를 “타깃(target)”이라고 부릅니다. 이 책에서는 이런 관례를 따르겠습니다.
예를 들어 학생들의 수학 SAT 점수를 예측한다고 가정해 보죠(SAT는 미국 대학 입시에 자주 사용되는 표준 시험입니다). 시험 공부에 투자한 시간과 최종 점수 사이에 관계가 있다면 두 값으로 훈련 데이터를 만들고 모델을 학습할 수 있습니다. 이 모델은 시험에 응시하려는 학생들이 공부한 시간을 이용하여 시험 점수를 예측합니다.