더북(TheBook)

구체적으로 grad(loss_value, W0)는 무엇을 나타낼까요? 앞서 하나의 가중치를 가진 함수 f(x)의 도함수는 곡선 f의 기울기로 해석할 수 있다는 것을 보았습니다. 비슷하게 grad(loss_value, W0)W0에서 loss_value = f(x)가 가장 가파르게 상승하는 방향과 이 방향의 기울기를 나타내는 텐서로 해석할 수 있습니다. 편도함수는 f의 특정 방향 기울기를 나타냅니다.

그렇기 때문에 함수 f(x)에 대해서는 도함수의 반대 방향으로 x를 조금 움직이면 f(x)의 값을 감소시킬 수 있습니다. 동일한 방식을 적용하면 텐서의 함수 f(W)의 입장에서는 그레이디언트의 반대 방향으로 W를 움직이면 loss_value = f(W)의 값을 줄일 수 있습니다. 예를 들어 W1 = W0 - step * grad(f(W0), W0)입니다(step은 스케일을 조정하기 위한 작은 값입니다). 이 말은 f가 가장 가파르게 상승하는 방향의 반대 방향으로 움직이면 곡선의 낮은 위치로 이동하게 된다는 의미입니다. grad(loss_value, W0)W0에 아주 가까이 있을 때 기울기를 근사한 것이므로 W0에서 너무 크게 벗어나지 않기 위해 스케일링 비율 step이 필요합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.