더북(TheBook)

7.6.1 분류모형의 평가

지금까지 살펴본 로지스틱 회귀모형은 이항 성격의 범주인 Y에 대해 학습하고 예측하기 때문에 분류모형(classification)으로 부른다. 분류모형은 모형에 대한 적합도 외에 정분류율/오분류율 등을 이용해서 모형을 평가할 수 있다. 원래 종속 변수가 YN이라는 범주(코드에서는 1과 0)를 갖는다면 정분류율은 YY로, NN으로 분류한 비율을 의미한다. 참고로 오분류율은 YN으로, NY로 분류(예측)한 비율이다. 이러한 접근 방식은 모든 분류모형에 일반적으로 활용되니 잘 참고하기 바란다.

우선, 분류모형이 특히, 두 개의 범주를 갖는 경우에는 표 7-1에서 다루는 네 가지 경우(실제 YY로 예측한 경우, 실제 YN으로 예측한 경우, 실제 NY로 예측한 경우, 실제 NN으로 예측한 경우)만 가능하다.

▼ 표 7-1 혼동행렬

 

실제 Y

실제 N

예측 Y

True positive(TP)

False positive(FP)

예측 N

False Negative(FN)

True Negative(TN)

표 7-1에서 YY로 예측하거나 NN으로 예측한 것은 잘 맞춘 경우이다. 직관적으로 예측한 결과 중에 각각 몇 개나 맞혔는지를 알면 결과에 대한 이해가 더 쉬울 것이다. 예측은 YN으로 했으니, 각 경우 몇 개나 맞혔는지를 정리한 위의 표를 혼동행렬(confusion matrix)이라 한다.

앞의 결과는 전체 예측 결과 중에서 각 경우에 대한 빈도를 정리한 것이고 이외의 상황은 나올 수가 없다. 전체 예측 결과의 개수를 N이라고 한다면 N = TP + FP + FN + TN이 성립한다. Y를 예측하면 Positive를, N을 예측하면 Negativie를 붙이고, 예측 결과가 맞았다면 True, 아니면 False를 앞에 붙여준다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.