여기서 우리는 학습률(learning rate)이라는 개념을 알 수 있습니다. 기울기의 부호를 바꾸어 이동시킬 때 적절한 거리를 찾지 못해 너무 멀리 이동시키면 a 값이 한 점으로 모이지 않고 그림 5-4와 같이 위로 치솟아 버립니다.

그림 5-4 | 학습률을 너무 크게 잡으면 한 점으로 수렴하지 않고 발산
따라서 어느 만큼 이동시킬지 신중히 결정해야 하는데, 이때 이동 거리를 정해 주는 것이 바로 학습률입니다. 딥러닝에서 학습률의 값을 적절히 바꾸면서 최적의 학습률을 찾는 것은 중요한 최적화 과정 중 하나입니다.