더북(TheBook)

3단계: 데이터 준비 - 4단계에서 훈련할 머신러닝 모델에 필요한 데이터를 준비합니다. 라벨이 있는 데이터는 크기가 다른 두 부분으로 나눌 수 있습니다. 큰 부분은 훈련 데이터(training data)라 부르며 4단계에서 모델을 훈련하는 데 사용합니다. 작은 부분은 테스트 데이터(testing data)라 부르며 5단계에서 모델을 평가하는 데 사용합니다. 이 단계에서 비지도 학습은 데이터를 준비하는 역할을 수행할 수 있습니다. 예를 들어, 비지도 학습을 통해 비정형 데이터를 정형 데이터로 변환하면 모델 훈련에 도움이 되는 추가 정보를 얻을 수 있습니다.

4단계: 모델링 - 이 단계에서는 앞서 발견한 패턴을 활용해서 지도 학습을 수행합니다. 우리가 선정한 지도 학습 알고리즘의 요구사항에 맞게 데이터를 준비한 상태입니다. 또한, 라벨로 사용할 특성 역시 미리 정해져 있어야 합니다. 3단계에서 데이터를 훈련 데이터셋과 테스트 데이터셋으로 분리해 두었습니다. 4단계에서는 우리가 알아내려는 패턴에 담겨 있는 관계를 수학적 공식으로 구성합니다. 3단계에서 만든 훈련 데이터로 모델을 훈련하면 됩니다. 앞에서 설명한 것처럼 4단계에서 만드는 수학적 공식은 우리가 어떤 알고리즘을 선택하느냐에 따라 좌우됩니다.

5단계: 평가 - 훈련이 끝난 모델의 성능을 3단계에서 만든 테스트 데이터로 평가합니다. 평가 결과가 1단계에서 정의한 기대 성능을 만족하지 않으면 1단계로 돌아갑니다. 이 과정은 앞에서 본 그림 6-2에 표현되어 있습니다.

6단계: 배포 - 5단계의 평가를 통과했다면, 모델을 프로덕션 환경에 배포하여 1단계에서 정의한 문제의 솔루션을 제공하기 시작합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.