이때는 재현율과 정밀도라는 척도가 필요합니다. 하나씩 살펴봅시다.
• 재현율: 실제 양성인 사례 중에서 양성으로 예측한 사례의 비율입니다. 첫 번째 사례에서 재현율은 전체 사기 건수 중에서 실제로 사기라고 판단한 거래의 비율입니다. 모델 테스트에서 1백만 건의 거래 기록 중 사기로 밝혀진 건수가 100개이고, 이 중에 모델이 78개를 찾아냈다면 재현율은 78 / 100입니다.
• 정밀도: 양성으로 예측한 사례 중 실제로 양성인 비율입니다. 첫 번째 사례에서 정밀도는 사기라고 판단한 거래 중에서 제대로 예측한 건수의 비율입니다. 정밀도는 모델이 탐지하지 못한 사기 건수 대신, 사기라고 판단한 결과가 얼마나 정밀한지만 신경 씁니다.
F1 점수는 재현율과 정밀도를 모두 반영한 척도입니다. 어떤 모델이 재현율과 정밀도가 완벽하다면 F1 점수 역시 완벽할 것입니다. F1 점수가 높다면 재현율과 정밀도도 높은, 고품질의 모델을 훈련했음을 의미합니다.
과적합
개발 환경에서는 멋지게 동작하는 머신러닝 모델이 프로덕션 환경에서 눈에 띄게 부진하다면, 이 모델은 과적합(overfitting)됐다고 할 수 있습니다. 이는 훈련된 모델이 지나치게 훈련 데이터에 의존적이라는 것을 뜻합니다. 모델이 데이터를 처리하는 규칙을 너무 세세하게 만들었다는 신호이기도 합니다. 무슨 뜻일까요? 편향-분산 상충 관계를 통해 자세히 알아보겠습니다.