1.4.1 전처리: 데이터 형태 갖추기
머신 러닝 시스템을 구축할 수 있는 로드맵(roadmap)을 이야기해 보죠. 주어진 원본 데이터의 형태와 모습이 학습 알고리즘이 최적의 성능을 내기에 적합한 경우는 매우 드뭅니다. 데이터 전처리는 모든 머신 러닝 애플리케이션에서 가장 중요한 단계 중 하나입니다.
이전 절에서 예로 든 붓꽃 데이터셋을 생각해 보면 원본 데이터는 일련의 꽃 이미지들이고, 여기에서 의미 있는 특성을 추출해야 합니다. 유용한 특성은 꽃의 색깔, 색조, 채도가 될 수 있습니다. 높이, 꽃의 길이와 너비도 가능합니다.
많은 머신 러닝 알고리즘에서 최적의 성능을 내려면 선택된 특성이 같은 스케일을 가져야 합니다. 특성을 [0, 1] 범위로 변환하거나 평균이 0이고 단위 분산을 가진 표준 정규 분포(standard normal distribution)로 변환하는 경우가 많습니다. 이어지는 장에서 볼 것입니다.