따라서 어느 만큼 이동시킬지 신중히 결정해야 하는데, 이때 이동 거리를 정해 주는 것이 바로 학습률입니다. 딥러닝에서 학습률의 값을 적절히 바꾸면서 최적의 학습률을 찾는 것은 중요한 최적화 과정 중 하나입니다.
다시 말해 경사 하강법은 오차의 변화에 따라 이차 함수 그래프를 만들고 적절한 학습률을 설정해 미분 값이 0인 지점을 구하는 것입니다.
y 절편 b의 값도 이와 같은 성질을 가지고 있습니다. b 값이 너무 크면 오차도 함께 커지고, 너무 작아도 오차가 커집니다. 그래서 최적의 b 값을 구할 때 역시 경사 하강법을 사용합니다.