2 실습을 위한 준비 사항
‘가장 많이 사용하는 머신 러닝 알고리즘 TOP 10’을 배우기 위해 우리는 11장에 소개하고 있는 피마 인디언 당뇨병 데이터셋을 사용할 것입니다.
머신 러닝은 데이터를 입력하기 전에 데이터를 적절히 전처리해 주는 것(11장 4절, 15장 2절 참조)이 중요합니다. 딥러닝의 경우 가중치 조절을 통해 불필요한 속성을 스스로 제거하려는 성질이 있으나, 일반적인 머신 러닝은 두드러진 몇몇 값이 결과에 큰 영향을 미치는 경우가 있으므로 특히 데이터 전처리 과정이 중요하다고 할 수 있습니다.
우리가 사용할 피마 인디언 데이터셋 역시 데이터 속성 간 편차가 커서 이를 그대로 쓰는 것보다 너무 크거나 동떨어진 값을 일정한 범위 안으로 모아 놓는 데이터 전처리 과정이 필요합니다. 이러한 과정을 데이터 스케일링(data scaling)이라고 합니다. 우리는 여러 데이터 스케일링 방법 중 일반적으로 많이 사용되는 StandardScaler() 함수를 이용하겠습니다. 우선 코드를 보면 다음과 같습니다.