혼동 행렬은 알고리즘 성능 평가에 사용됩니다. 혼동 행렬에서 사용되는 다음 표를 먼저 살펴보겠습니다.
▼ 표 3-5 혼동 행렬
|
예측 값 |
||
Positive |
Negative |
||
실제 값 |
Positive |
TP |
FN |
Negative |
FP |
TN |
혼동 행렬에서 사용하는 용어는 2장에서 다루었지만 리마인드 차원에서 다시 정리하면 다음과 같습니다.
• True Positive: 모델(분류기)이 ‘1’이라고 예측했는데 실제 값도 ‘1’인 경우
• True Negative: 모델(분류기)이 ‘0’이라고 예측했는데 실제 값도 ‘0’인 경우
• False Positive: 모델(분류기)이 ‘1’이라고 예측했는데 실제 값은 ‘0’인 경우
• False Negative: 모델(분류기)이 ‘0’이라고 예측했는데 실제 값은 ‘1’인 경우
혼동 행렬을 이용하면 2장에서 배운 정밀도, 재현율, 정확도 같은 지표를 얻을 수 있습니다.
혼동 행렬을 바탕으로 모델의 훈련 결과를 확인해 봅시다. 잘못된 예측(다음 그림의 파란색)보다는 정확한 예측(다음 그림의 빨간색)의 수치가 더 높으므로 잘 훈련되었다고 할 수 있습니다.
▲ 그림 3-17 혼동 행렬 훈련 결과
이와 같이 주어진 데이터를 사용하여 트리 형식으로 데이터를 이진 분류(0 혹은 1)해 나가는 방법이 결정 트리이며, 결정 트리를 좀 더 확대한 것(결정 트리를 여러 개 묶어 놓은 것)이 랜덤 포레스트(random forest)입니다.