데이터 품질과 데이터에 담긴 유용한 정보의 양은 머신 러닝 알고리즘을 얼마나 잘 학습할 수 있는지 결정하는 중요한 요소입니다. 학습 알고리즘에 데이터를 주입하기 전에 조사하고 전처리하는 것이 매우 중요합니다. 이 장에서 좋은 머신 러닝 모델을 구축하는 데 도움이 되는 핵심적인 전처리 기법을 다루겠습니다.
이 장에서는 다음 주제를 다룹니다.
• 데이터셋에서 누락된 값을 제거하거나 대체하기
• 머신 러닝 알고리즘을 위해 범주형 데이터 변환하기
• 모델과 관련이 높은 특성 선택하기