더북(TheBook)

데이터 파이프라인을 이용한 특성 엔지니어링

이 회귀 문제에 사용할 수 있는 재사용 가능한 데이터 파이프라인을 만들어 보겠습니다. 앞에서 설명한 바와 같이, 데이터 파이프라인을 통해 데이터가 준비되면 이를 모든 회귀 알고리즘에 공통으로 사용합니다.

1. 데이터셋을 불러옵니다.

[in :]

dataset = pd.read_csv("auto.csv")

2. 데이터 일부를 출력하여 확인합니다.

[in :]

dataset.head(5)

데이터셋은 다음과 같이 구성되어 있습니다.

[out:]

3. 다음은 특성 선별 단계입니다. NAME은 차량 식별자이므로 데이터셋에서 제거합니다. 데이터셋의 행을 식별할 때 사용하는 열은 모델 훈련과 관련이 없기 때문입니다.

[in :]

dataset = dataset.drop(columns=['NAME'])

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.