훈련(학습)된 모델에 대한 평가 지표는 정확도(accuracy)를 사용합니다.
코드 2-8 모델 평가
score = model.evaluate(X_test, y_test, verbose=1)
print("Test Score:", score[0])
print("Test Accuracy:", score[1])
다음은 모델 평가를 실행한 결과입니다.
11/11 [==============================] - 0s 1ms/step - loss: 0.0824 - acc: 0.9653
Test Score: 0.08236907422542572
Test Accuracy: 0.9653179049491882
테스트 정확도(test accuracy)의 결괏값이 0.96으로, 정확도는 약 97%입니다(백분율로 계산합니다). 정확도가 높기 때문에 학습이 잘되었다고 할 수 있습니다.
마지막으로 딥러닝 분류 모델의 성능 평가 지표를 알아보겠습니다. 성능 평가 지표로 정확도(accuracy), 재현율(recall), 정밀도(precision), F1-스코어(F1-Score)가 있습니다.
정확도를 확인하기 전에 필요한 용어들부터 살펴보겠습니다.
• True Positive: 모델(분류기)이 ‘1’이라고 예측했는데 실제 값도 ‘1’인 경우입니다.
• True Negative: 모델(분류기)이 ‘0’이라고 예측했는데 실제 값도 ‘0’인 경우입니다.
• False Positive: 모델(분류기)이 ‘1’이라고 예측했는데 실제 값은 ‘0’인 경우로, Type I 오류라고도 합니다.
• False Negative: 모델(분류기)이 ‘0’이라고 예측했는데 실제 값은 ‘1’인 경우로, Type II 오류라고도 합니다.
이러한 용어들을 사용하여 정확도, 재현율, 정밀도, F1-스코어에 대해 알아보겠습니다.