출력된 손실 함수 그래프에서 볼 수 있듯이 두 개의 다른 문제가 발생했습니다. 그림 2-11의 왼쪽 그래프는 학습률이 너무 클 때 발생합니다. 손실 함수를 최소화하지 못하고 MSE는 에포크마다 점점 더 커집니다. 전역 최솟값을 지나쳤기 때문입니다. 반면 오른쪽 그래프에서는 손실이 감소하지만 학습률 η = 0.0001은 너무 작기 때문에 알고리즘이 전역 최솟값에 수렴하려면 아주 많은 에포크가 필요합니다.
▲ 그림 2-11 최적이 아닌 학습률에 대한 오차 그래프