데이터 전처리가 끝나면 탐색적 데이터 분석(Exploratory Data Analysis, EDA) 단계로 넘어간다. EDA는 데이터 시각화를 활용해 데이터에 숨겨진 통찰을 찾아내는 과정이다. EDA를 통해 새로운 특징 변수(feature)를 찾아내거나(이 과정을 특징 엔지니어링(feature engineering)이라고도 부른다) 도메인 지식을 머신 러닝 모델에 반영한다.
데이터 전처리와 EDA 과정을 마치면 마지막 모델 구축(model building) 단계로 넘어간다. 앞서 언급했듯이 다양한 머신 러닝 알고리즘을 사용해 모델을 만들 수 있으며, 직면한 문제에 따라 알고리즘 선택도 달라진다. 하지만 책에서는 신경망에 집중한다. 모델 구축 단계에서는 초매개변수(hyperparameter)를 튜닝하는 과정이 필요할 때가 많다. 적절한 초매개변수를 지정하면 모델 성능을 크게 개선할 수 있다. 책의 실습 프로젝트를 진행하면서 여러 신경망의 다양한 초매개변수를 살펴볼 것이다. 모델 훈련을 마치면 테스트 데이터셋을 사용해 모델 성능을 최종 평가할 수 있다.
이처럼 머신 러닝 워크플로는 여러 중간 단계로 이뤄지며, 각 단계가 모델 성능 전반에 중요한 영향을 미친다. 여기서 파이썬의 장점은 편리한 오픈 소스 라이브러리를 사용해 머신 러닝 워크플로 전체를 구현하고 실행할 수 있다는 것이다. 책이 제공하는 복잡한 신경망 예제를 처음부터 하나씩 만들면서 머신 러닝 워크플로의 각 단계를 파이썬으로 구현해 볼 것이다.