더북(TheBook)

ROC 커브

많은 기계 학습 모델은 그 내부에서 결과가 Y일 확률 또는 점수를 계산한다. 그리고 점수가 특정 기준을 넘으면 Y로, 기준을 넘지 않으면 N으로 예측값을 출력한다. 예를 들어, 표 9-13과 같이 각 관측값에 대한 점수가 주어졌다고 하자.

표 9-13 관측값과 모델에 의해 예측된 점수

관측값 번호

점수

#3

0.937

#7

0.830

#2

0.738

#15

0.720

#6

0.603

표 9-13에서 점수의 기준값을 0.7로 놓으면 #3, #7, #2, #15는 Y로 #6은 N으로 예측된다. 기준값을 0.8로 하면 #3, #7만 Y로 예측된다.

ROC 커브는 점수 기준을 달리할 때 TP Rate와 FP Rate가 어떻게 달라지는지 그래프로 표시한 것이다. 표 9-13의 데이터에 실제 분류를 추가하면 표 9-14가 된다.

표 9-14 관측값, 모델에 의해 예측된 점수, 실제 분류

관측값 번호

점수

실제 분류

#3

0.937

Y

#7

0.830

Y

#2

0.738

N

#15

0.720

N

#6

0.603

Y

표 9-14와 같은 데이터가 있을 때 예측을 Y로 판단하는 기준값이 관측값 #3과 같다면 TP Rate는 1/3, FP Rate는 0이다. 기준값이 #7과 같았다면 TP Rate는 2/3, FP Rate는 0이다. 이를 정리하면 표 9-15와 같다.

표 9-15 기준값 변화에 따른 TP Rate, FP Rate의 변화

기준값

TP Rate

FP Rate

0.937

1/3

0

0.830

2/3

0

0.738

2/3

1/2

0.720

2/3

2/2

0.603

3/3

2/2

표 9-15를 X 축을 FP Rate, Y축을 TP Rate로 한 좌표 평면에 그린 것이 그림 9-18에 보인 ROC 커브다.

그림 9-18 ROC 커브의 예
그림 9-18 ROC 커브의 예

이처럼 ROC 커브는 FP Rate 대비 TP Rate의 변화를 뜻한다. 따라서 그림 9-19에 보인 것처럼 TP Rate가 1로 한 번에 올라간 뒤 FP Rate가 뒤따라 증가하는 형태가 가장 이상적이다. 이런 형태는 실제로 Y인 결과에 높은 점수를 주는 모델을 뜻한다.

그림 9-19 이상적인 모델의 ROC 커브
그림 9-19 이상적인 모델의 ROC 커브
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.