7.3.1 회귀 문제 소개

    분류 알고리즘을 소개할 때와 마찬가지로, 먼저 회귀 알고리즘을 적용할 수 있는 문제를 설명하겠습니다. 이 장에서는 이 회귀 문제를 반복해서 사용합니다. 그러고 나서 이 문제에 여러 회귀 알고리즘을 적용할 것입니다. 동일한 문제에 여러 회귀 문제를 적용하면 다음과 같은 이점이 있습니다.

    데이터 준비가 끝나면 이를 이용해 세 가지 회귀 알고리즘을 모두 사용할 수 있습니다.

    문제를 푸는 데 사용한 세 가지 회귀 알고리즘의 성능을 비교할 수 있습니다.

     

    회귀 문제 정의

    차량의 연비를 예측하는 것은 매우 중요합니다. 연비가 좋은 차량은 유지비도 적게 들 뿐만 아니라 환경에도 좋습니다. 차량 엔진의 파워 등 여러 특성을 이용하면 연비를 추정할 수 있습니다. 우리가 다룰 회귀 문제는 차량의 여러 정보로 갤런당 마일(Miles Per Gallon, MPG)을 예측하는 것입니다.

    회귀 모델을 훈련할 때 사용할 데이터셋을 살펴봅시다.

     

    데이터셋 살펴보기

    다음은 데이터셋(auto.csv)이 가진 특성입니다.

    ▼ 표 7-5 auto 데이터셋의 특성

    특성

    타입

    설명

    NAME

    카테고리형

    차량 식별자

    CYLINDERS

    연속형

    실린더의 수(4~8)

    DISPLACEMENT

    연속형

    엔진 변위(단위: 세제곱인치)

    HORSEPOWER

    연속형

    엔진 마력

    ACCELERATION

    연속형

    0부터 60mph까지 가속하는 데 걸리는 시간(단위: 초)

    이 문제의 타깃 변수인 MPG는 연속형 변수입니다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.