데이터 파이프라인을 이용한 특성 엔지니어링
머신러닝 알고리즘에 적합한 형태로 데이터를 준비하는 과정을 특성 엔지니어링(feature engineering)이라고 합니다. 이는 머신러닝 라이프 사이클에서 매우 중요한 역할을 수행합니다. 여러 단계로 구성된 데이터 처리 코드를 통칭하여 데이터 파이프라인(data pipeline)이라고 합니다. 표준적인 처리 단계를 사용하여 데이터 파이프라인을 구축하면 재사용이 가능해지고 모델 학습에 드는 수고로움을 줄일 수 있습니다. 검증된 소프트웨어 모듈을 사용하면 코드의 품질도 개선할 수 있는 장점이 있습니다.
이 문제에 반복해서 적용할 수 있는 데이터 파이프라인을 구성해 보겠습니다. 앞에서 설명한 것처럼 이 데이터 파이프라인을 통해 특성 벡터를 만들어 두고 이를 여러 알고리즘에 동일하게 사용하겠습니다.
데이터 읽어오기
이 문제에 사용하는 데이터는 CSV 파일로 저장되어 있습니다. pandas의 read_csv 함수를 이용해 데이터를 데이터프레임으로 읽어옵니다.
[in :]
dataset = pd.read_csv('Social_Network_Ads.csv')