더북(TheBook)

7.3.1 회귀 문제 소개

분류 알고리즘을 소개할 때와 마찬가지로, 먼저 회귀 알고리즘을 적용할 수 있는 문제를 설명하겠습니다. 이 장에서는 이 회귀 문제를 반복해서 사용합니다. 그러고 나서 이 문제에 여러 회귀 알고리즘을 적용할 것입니다. 동일한 문제에 여러 회귀 문제를 적용하면 다음과 같은 이점이 있습니다.

데이터 준비가 끝나면 이를 이용해 세 가지 회귀 알고리즘을 모두 사용할 수 있습니다.

문제를 푸는 데 사용한 세 가지 회귀 알고리즘의 성능을 비교할 수 있습니다.

 

회귀 문제 정의

차량의 연비를 예측하는 것은 매우 중요합니다. 연비가 좋은 차량은 유지비도 적게 들 뿐만 아니라 환경에도 좋습니다. 차량 엔진의 파워 등 여러 특성을 이용하면 연비를 추정할 수 있습니다. 우리가 다룰 회귀 문제는 차량의 여러 정보로 갤런당 마일(Miles Per Gallon, MPG)을 예측하는 것입니다.

회귀 모델을 훈련할 때 사용할 데이터셋을 살펴봅시다.

 

데이터셋 살펴보기

다음은 데이터셋(auto.csv)이 가진 특성입니다.

▼ 표 7-5 auto 데이터셋의 특성

특성

타입

설명

NAME

카테고리형

차량 식별자

CYLINDERS

연속형

실린더의 수(4~8)

DISPLACEMENT

연속형

엔진 변위(단위: 세제곱인치)

HORSEPOWER

연속형

엔진 마력

ACCELERATION

연속형

0부터 60mph까지 가속하는 데 걸리는 시간(단위: 초)

이 문제의 타깃 변수인 MPG는 연속형 변수입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.