더북(TheBook)

혼동 행렬은 알고리즘 성능 평가에 사용됩니다. 혼동 행렬에서 사용되는 다음 표를 먼저 살펴보겠습니다.

▼ 표 3-5 혼동 행렬

 

예측 값

Positive

Negative

실제 값

Positive

TP

FN

Negative

FP

TN

혼동 행렬에서 사용하는 용어는 2장에서 다루었지만 리마인드 차원에서 다시 정리하면 다음과 같습니다.

True Positive: 모델(분류기)이 ‘1’이라고 예측했는데 실제 값도 ‘1’인 경우

True Negative: 모델(분류기)이 ‘0’이라고 예측했는데 실제 값도 ‘0’인 경우

False Positive: 모델(분류기)이 ‘1’이라고 예측했는데 실제 값은 ‘0’인 경우

False Negative: 모델(분류기)이 ‘0’이라고 예측했는데 실제 값은 ‘1’인 경우

혼동 행렬을 이용하면 2장에서 배운 정밀도, 재현율, 정확도 같은 지표를 얻을 수 있습니다.

혼동 행렬을 바탕으로 모델의 훈련 결과를 확인해 봅시다. 잘못된 예측(다음 그림의 파란색)보다는 정확한 예측(다음 그림의 빨간색)의 수치가 더 높으므로 잘 훈련되었다고 할 수 있습니다.

▲ 그림 3-17 혼동 행렬 훈련 결과

이와 같이 주어진 데이터를 사용하여 트리 형식으로 데이터를 이진 분류(0 혹은 1)해 나가는 방법이 결정 트리이며, 결정 트리를 좀 더 확대한 것(결정 트리를 여러 개 묶어 놓은 것)이 랜덤 포레스트(random forest)입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.