데이터 파이프라인을 이용한 특성 엔지니어링
이 회귀 문제에 사용할 수 있는 재사용 가능한 데이터 파이프라인을 만들어 보겠습니다. 앞에서 설명한 바와 같이, 데이터 파이프라인을 통해 데이터가 준비되면 이를 모든 회귀 알고리즘에 공통으로 사용합니다.
1. 데이터셋을 불러옵니다.
[in :]
dataset = pd.read_csv("auto.csv")
2. 데이터 일부를 출력하여 확인합니다.
[in :]
dataset.head(5)
데이터셋은 다음과 같이 구성되어 있습니다.
[out:]
3. 다음은 특성 선별 단계입니다. NAME은 차량 식별자이므로 데이터셋에서 제거합니다. 데이터셋의 행을 식별할 때 사용하는 열은 모델 훈련과 관련이 없기 때문입니다.
[in :]
dataset = dataset.drop(columns=['NAME'])