더북(TheBook)

3.2.2 이진 분류기의 품질 측정: 정밀도, 재현율, 정확도, ROC 곡선

이진 분류 문제에서는 0/1, 네/아니요 같은 두 값 중에서 하나가 출력됩니다. 추상적인 개념으로 양성(positive)과 음성(negative)에 대해 이야기해 보겠습니다. 네트워크가 만든 예측은 옳거나 그릅니다. 따라서 표 3-2와 같이 입력 샘플의 실제 레이블과 네트워크의 출력을 조합하여 네 개의 가능한 시나리오가 있습니다.

▼ 표 3-2 이진 분류 문제에서 네 가지 분류 결과

 

예측

양성

음성

정답

양성

진짜 양성(TP)

거짓 음성(FN)

음성

거짓 양성(FP)

진짜 음성(TN)

진짜 양성(True Positive, TP)과 진짜 음성(True Negative, TN)은 모델이 정확한 답을 예측한 경우입니다. 거짓 양성(False Positive, FP)과 거짓 음성(False Negative, FN)은 모델이 틀린 경우입니다. 이 네 개의 셀에 해당하는 샘플을 카운트하여 채우면 오차 행렬(confusion matrix)24이 됩니다. 표 3-3은 가상으로 만든 피싱 감지 문제의 오차 행렬입니다.

▼ 표 3-3 가상으로 만든 이진 분류 문제의 오차 행렬

 

예측

양성

음성

정답

양성

4

2

음성

1

93

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.