7.3.1 회귀 문제 소개
분류 알고리즘을 소개할 때와 마찬가지로, 먼저 회귀 알고리즘을 적용할 수 있는 문제를 설명하겠습니다. 이 장에서는 이 회귀 문제를 반복해서 사용합니다. 그러고 나서 이 문제에 여러 회귀 알고리즘을 적용할 것입니다. 동일한 문제에 여러 회귀 문제를 적용하면 다음과 같은 이점이 있습니다.
• 데이터 준비가 끝나면 이를 이용해 세 가지 회귀 알고리즘을 모두 사용할 수 있습니다.
• 문제를 푸는 데 사용한 세 가지 회귀 알고리즘의 성능을 비교할 수 있습니다.
회귀 문제 정의
차량의 연비를 예측하는 것은 매우 중요합니다. 연비가 좋은 차량은 유지비도 적게 들 뿐만 아니라 환경에도 좋습니다. 차량 엔진의 파워 등 여러 특성을 이용하면 연비를 추정할 수 있습니다. 우리가 다룰 회귀 문제는 차량의 여러 정보로 갤런당 마일(Miles Per Gallon, MPG)을 예측하는 것입니다.
회귀 모델을 훈련할 때 사용할 데이터셋을 살펴봅시다.
데이터셋 살펴보기
다음은 데이터셋(auto.csv)이 가진 특성입니다.
▼ 표 7-5 auto 데이터셋의 특성
특성 |
타입 |
설명 |
NAME |
카테고리형 |
차량 식별자 |
CYLINDERS |
연속형 |
실린더의 수(4~8) |
DISPLACEMENT |
연속형 |
엔진 변위(단위: 세제곱인치) |
HORSEPOWER |
연속형 |
엔진 마력 |
ACCELERATION |
연속형 |
0부터 60mph까지 가속하는 데 걸리는 시간(단위: 초) |
이 문제의 타깃 변수인 MPG는 연속형 변수입니다.