머신 러닝을 위한 수학 with 파이썬, R: 7.6.1 분류모형의 평가

예를 들어 대출을 갚는 경우를 생각해보자. Y는 대출을 갚는 경우, N은 그렇지 못한 경우이다. 은행 입장에서는 N으로 예측해도 실제로 Y인 경우가 좋겠지만, 모형의 입장에서는 그렇지 않다. 모형의 경우 Y를 Y로, N을 N으로 예측하고 실제 결과도 그렇게 나온 것이 일을 잘한 셈이다. 그렇기 때문에 전체 N개 중에서 TP + TN이 많을수록 모형의 성능은 좋은 것이다. 이런 방법으로 모형의 성능에 대한 몇 가지 측정 방법이 있는데, 다음 표 7-2에 정리하였다.

▼ 표 7-2 다양한 분류 성능 지표 ¹

메트릭(metric)	계산식	설명
정분류율(accuracy)	(TP+TN)/N	전체 결과 중 맞게 분류한 비율이다.
오분류율(error rate)	(FP+FN)/N	전체 결과 중 잘못 분류한 비율이다.
정확도(precision)1	TP/(TP+FP)	Y로 예측한 것 중 실제로 Y인 비율이다.
민감도(sensitivity, recall)	TP/(TP+FN)	실제 Y를 Y로 예측한 비율이다.
특이도(specificity)	TN/(FP+TN)	실제 N을 N으로 예측한 비율이다.
FP Rate(False Alarm Rate)	FP/(FP+TN)	Y가 아닌데 Y로 예측한 비율로, 1-특이도와 같다.

일반적으로 정분류율을 많이 사용하며, 이 값이 높을수록 모형은 더 잘 예측한다. 물론, 그중에서도 Y값에 더 관심을 갖는 경우가 있는데, 그때에는 정확도도 같이 살펴보는 것이 좋다. 정확도는 사건 발생의 예측 중에서 얼마나 실제로 맞혔는지를 보는 지표이다.

1 precision은 정보 검색 분야에서는 ‘정밀도’로도 사용된다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.