더북(TheBook)

확률적 경사 하강법을 경사 하강법의 근사로 생각할 수 있지만 가중치가 더 자주 업데이트되기 때문에 수렴 속도가 훨씬 빠릅니다. 그레이디언트가 하나의 훈련 샘플을 기반으로 계산되므로 오차의 궤적은 배치 경사 하강법보다 훨씬 어지럽습니다. 비선형 손실 함수를 다룰 때 얕은 지역 최솟값을 더 쉽게 탈출할 수 있어 장점이 되기도 합니다. 나중에 11장에서 이것을 배우겠습니다. 확률적 경사 하강법에서 만족스러운 결과를 얻으려면 훈련 샘플 순서를 무작위로 주입하는 것이 중요합니다. 또한, 순환되지 않도록 에포크마다 훈련 데이터셋을 섞는 것이 좋습니다.

Note ≡ 훈련하는 동안 학습률 조정하기


확률적 경사 하강법 구현에서 종종 고정된 학습률 η를 시간이 지남에 따라 적응적 학습률로 대체합니다. 예를 들어 다음과 같습니다.

여기에서 c1c2는 상수입니다. 확률적 경사 하강법은 전역 최솟값에 도달하지 못하지만 매우 가까운 지역에 근접합니다. 적응적 학습률을 사용하면 최솟값에 더욱 가깝게 다가갈 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.