더북(TheBook)

테스트 데이터(Test Data)

직선을 선택할 것인지 또는 고차의 다항식을 선택할 것인지의 문제처럼 여러 가지 모델을 놓고 어떤 모델이 더 잘 동작할지를 추정해야 할 때가 있다. 또, 한 가지 모델을 놓고도 모델의 파라미터를 어떻게 설정하는 것이 더 나은지 결정해야 할 상황이 있을 수 있다. 마지막으로 특정 모델이 더 잘 동작할 것으로 보인다면, 과연 새로운 데이터가 주어졌을 때 얼마나 잘 동작할 것인지 그 성능을 추정할 필요도 있다.

데이터가 새로운 데이터에 얼마나 잘 동작할 것인지를 판단하는 방법 중 한 가지는 데이터의 일부를 따로 테스트 데이터로 떼어놓고 모델 평가에 사용하는 것이다. 이 방법의 수행 단계는 다음과 같다.

1. 데이터의 일부를 훈련 데이터(Training Data), 나머지를 테스트 데이터(Test Data)로 분리한다.

2. 훈련 데이터로부터 모델을 만든다.

3. 만들어진 모델을 테스트 데이터에 대해 적용해 성능을 평가한다. 성능이 만족스럽지 않다면 2단계로 돌아간다.

4. 어떻게 모델을 만들어야 할지 결정되었으므로 전체 데이터로부터 모델을 만들고 이를 최종 모델로 정한다.

그림 9-25 훈련 데이터와 테스트 데이터를 사용한 모델링 과정
그림 9-25 훈련 데이터와 테스트 데이터를 사용한 모델링 과정
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.