표준화가 경사 하강법 학습에 도움이 되는 이유 중 하나는 모든 가중치(및 편향)에 적합한 학습률을 찾기가 더 쉽기 때문입니다. 특성의 스케일이 매우 다른 경우, 한 가중치를 업데이트하는 데 적합한 학습률이 다른 가중치를 업데이트하는 데는 너무 크거나 작아서 잘 업데이트하지 못할 수 있습니다. 전반적으로 표준화된 특성을 사용하면 최적화 알고리즘이 좋은 또는 최적의 솔루션(전역 손실 최솟값)을 찾기 위해 거쳐야 하는 단계가 줄어들어 학습이 안정화될 수 있습니다. 그림 2-13은 표준화되지 않은 특성(왼쪽 그림)과 표준화된 특성(오른쪽 그림)을 사용한 그레이디언트 업데이트를 보여 줍니다. 여기에서 동심원은 2차원 분류 문제에서 두 개의 모델 가중치의 함수로서 손실의 표면을 나타낸 것입니다.
▲ 그림 2-13 원본 특성과 표준화된 특성의 그레이디언트 업데이트 비교