더북(TheBook)

3.6.6 검증 데이터에서 손실과 측정 지표 모니터링하기

머신 러닝의 목표는 훈련 데이터에서 잘 동작하는 모델을 얻는 것이 아닙니다. 이렇게 하는 것은 쉽습니다. 그레이디언트를 따라가기만 하면 됩니다. 머신 러닝의 목표는 범용적으로 잘 동작하는 모델을 얻는 것입니다. 특히 이전에 만난 적 없는 데이터에서 잘 동작하는 모델입니다. 모델이 훈련 데이터에서 잘 동작한다고 해서 본 적 없는 데이터에서 잘 동작한다는 의미는 아닙니다! 예를 들어 모델이 단순히 훈련 샘플과 타깃 사이의 관계를 모두 외워 버릴 수 있습니다. 이런 모델은 이전에 본 적 없는 데이터의 타깃을 예측하는 작업에는 쓸모없습니다. 5장에서 이런 점에 대해 아주 자세히 다루어 보겠습니다.

새로운 데이터에 모델이 어떻게 동작하는지 예상하기 위해 훈련 데이터의 일부를 검증 데이터(validation data)로 떼어 놓는 것이 표준적인 방법입니다. 검증 데이터에서 모델을 훈련하지 않지만 이 데이터를 사용하여 손실과 측정 지표를 계산합니다. 이렇게 하려면 fit() 메서드의 validation_data 매개변수를 사용합니다. 훈련 데이터처럼 검증 데이터는 넘파이 배열이나 텐서플로 Dataset 객체로 전달할 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.