▼ 표 3-6 다양하게 출력된 확률에서의 범주형 크로스 엔트로피 값. 모든 샘플(행)은 (붓꽃 예제처럼) 세 개의 클래스가 있는 경우에 해당한다. 실제 클래스는 두 번째다.
원-핫 인코딩된 진짜 레이블 |
probs(소프트맥스 출력) |
범주형 크로스 엔트로피 |
MSE |
[0, 1, 0] |
[0.2, 0.5, 0.3] |
0.693 |
0.127 |
[0, 1, 0] |
[0.0, 0.5, 0.5] |
0.693 |
0.167 |
[0, 1, 0] |
[0.0, 0.9, 0.1] |
0.105 |
0.006 |
[0, 1, 0] |
[0.1, 0.9, 0.0] |
0.105 |
0.006 |
[0, 1, 0] |
[0.0, 0.99, 0.01] |
0.010 |
0.00006 |
이 테이블에서 행 1과 2를 비교하거나 행 3과 4를 비교하면, 실제 클래스에 해당하지 않는 probs 원소의 값을 바꾸는 것은 범주형 크로스 엔트로피에 영향을 주지 않는 것이 명확합니다. 반면 원-핫 인코딩된 진짜 레이블과 probs 사이의 MSE는 바뀝니다. 또한, 이진 크로스 엔트로피처럼 실제 클래스에 해당하는 probs가 1에 가까울 때 MSE는 희미해집니다. 따라서 정답 클래스의 확률 값을 올리는 데 도움이 되지 않습니다. 이것이 다중 분류 문제에서 MSE보다 범주형 크로스 엔트로피가 손실 함수로 더 적합한 이유입니다.