그러면 그림 5-3과 같이 기울기가 0인 한 점(m)으로 수렴합니다.
그림 5-3 | 최솟점 m을 찾아가는 과정
경사 하강법은 이렇게 반복적으로 기울기 a를 변화시켜서 m 값을 찾아내는 방법입니다.
여기서 우리는 학습률(learning rate)이라는 개념을 알 수 있습니다. 기울기의 부호를 바꾸어 이동시킬 때 적절한 거리를 찾지 못해 너무 멀리 이동시키면 a 값이 한 점으로 모이지 않고 그림 5-4와 같이 위로 치솟아 버립니다.
그림 5-4 | 학습률을 너무 크게 잡으면 한 점으로 수렴하지 않고 발산