머신 러닝을 위한 수학 with 파이썬, R: 7.6.1 분류모형의 평가

7.6.1 분류모형의 평가

지금까지 살펴본 로지스틱 회귀모형은 이항 성격의 범주인 Y에 대해 학습하고 예측하기 때문에 분류모형(classification)으로 부른다. 분류모형은 모형에 대한 적합도 외에 정분류율/오분류율 등을 이용해서 모형을 평가할 수 있다. 원래 종속 변수가 Y와 N이라는 범주(코드에서는 1과 0)를 갖는다면 정분류율은 Y를 Y로, N을 N으로 분류한 비율을 의미한다. 참고로 오분류율은 Y를 N으로, N을 Y로 분류(예측)한 비율이다. 이러한 접근 방식은 모든 분류모형에 일반적으로 활용되니 잘 참고하기 바란다.

우선, 분류모형이 특히, 두 개의 범주를 갖는 경우에는 표 7-1에서 다루는 네 가지 경우(실제 Y를 Y로 예측한 경우, 실제 Y를 N으로 예측한 경우, 실제 N을 Y로 예측한 경우, 실제 N을 N으로 예측한 경우)만 가능하다.

▼ 표 7-1 혼동행렬

	실제 Y	실제 N
예측 Y	True positive(TP)	False positive(FP)
예측 N	False Negative(FN)	True Negative(TN)

표 7-1에서 Y를 Y로 예측하거나 N을 N으로 예측한 것은 잘 맞춘 경우이다. 직관적으로 예측한 결과 중에 각각 몇 개나 맞혔는지를 알면 결과에 대한 이해가 더 쉬울 것이다. 예측은 Y와 N으로 했으니, 각 경우 몇 개나 맞혔는지를 정리한 위의 표를 혼동행렬(confusion matrix)이라 한다.

앞의 결과는 전체 예측 결과 중에서 각 경우에 대한 빈도를 정리한 것이고 이외의 상황은 나올 수가 없다. 전체 예측 결과의 개수를 N이라고 한다면 N = TP + FP + FN + TN이 성립한다. Y를 예측하면 Positive를, N을 예측하면 Negativie를 붙이고, 예측 결과가 맞았다면 True, 아니면 False를 앞에 붙여준다.

7.6.1 분류모형의 평가

추천 도서와 신규 콘텐츠를 먼저 받아보세요