7.6.1 분류모형의 평가
지금까지 살펴본 로지스틱 회귀모형은 이항 성격의 범주인 Y에 대해 학습하고 예측하기 때문에 분류모형(classification)으로 부른다. 분류모형은 모형에 대한 적합도 외에 정분류율/오분류율 등을 이용해서 모형을 평가할 수 있다. 원래 종속 변수가 Y와 N이라는 범주(코드에서는 1과 0)를 갖는다면 정분류율은 Y를 Y로, N을 N으로 분류한 비율을 의미한다. 참고로 오분류율은 Y를 N으로, N을 Y로 분류(예측)한 비율이다. 이러한 접근 방식은 모든 분류모형에 일반적으로 활용되니 잘 참고하기 바란다.
우선, 분류모형이 특히, 두 개의 범주를 갖는 경우에는 표 7-1에서 다루는 네 가지 경우(실제 Y를 Y로 예측한 경우, 실제 Y를 N으로 예측한 경우, 실제 N을 Y로 예측한 경우, 실제 N을 N으로 예측한 경우)만 가능하다.
▼ 표 7-1 혼동행렬
|
실제 Y |
실제 N |
예측 Y |
True positive(TP) |
False positive(FP) |
예측 N |
False Negative(FN) |
True Negative(TN) |
표 7-1에서 Y를 Y로 예측하거나 N을 N으로 예측한 것은 잘 맞춘 경우이다. 직관적으로 예측한 결과 중에 각각 몇 개나 맞혔는지를 알면 결과에 대한 이해가 더 쉬울 것이다. 예측은 Y와 N으로 했으니, 각 경우 몇 개나 맞혔는지를 정리한 위의 표를 혼동행렬(confusion matrix)이라 한다.
앞의 결과는 전체 예측 결과 중에서 각 경우에 대한 빈도를 정리한 것이고 이외의 상황은 나올 수가 없다. 전체 예측 결과의 개수를 N이라고 한다면 N = TP + FP + FN + TN이 성립한다. Y를 예측하면 Positive를, N을 예측하면 Negativie를 붙이고, 예측 결과가 맞았다면 True, 아니면 False를 앞에 붙여준다.