더북(TheBook)

1.4.2 예측 모델 훈련과 선택

이후 장들에서 보겠지만 여러 머신 러닝 알고리즘은 각기 다른 문제를 해결하기 위해 개발되었습니다. 데이비드 월퍼트(David Wolpert)의 공짜 점심 없음(no free lunch) 이론의 중요한 핵심 포인트는 아무런 대가도 치르지 않고 학습할 수는 없다는 것입니다.11 잘 알려진 속담과 연관 지어 생각할 수 있습니다. “가진 도구가 망치밖에 없다면 모든 문제가 못으로 보일 것입니다.”(에이브러햄 매슬로(Abraham Maslow)12, 1966) 예를 들어 분류 알고리즘은 저마다 태생적인 편향이 있습니다. 작업에서 아무런 가정도 하지 않는다면 어떤 하나의 분류 모델이 더 우월하다고 말할 수 없습니다. 현실에서는 가장 좋은 모델을 훈련하고 선택하기 위해 최소한 몇 가지 알고리즘을 비교해야 합니다. 여러 모델을 비교하기 전에 먼저 성능을 측정할 지표를 결정해야 합니다. 분류에서 널리 사용되는 지표는 정확도(accuracy)입니다. 정확도는 정확히 분류된 샘플 비율입니다.

다음 질문이 생길 법합니다. 모델 선택에 테스트 데이터셋을 사용하지 않고 최종 모델을 평가하려고 따로 보관한다면, 테스트 데이터셋과 실제 데이터에서 어떤 모델이 잘 동작할지 어떻게 알 수 있을까요? 이 질문에 나온 이슈를 해결하기 위해 다양한 교차 검증 기법을 사용합니다. 교차 검증에서는 모델의 일반화 성능을 예측하기 위해 훈련 데이터를 훈련 데이터셋과 검증 데이터셋으로 더 나눕니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.