역전파의 중요한 단계는 다음 양을 결정하는 것입니다.
다른 모든 것(여기서는 x와 y)이 동일하다고 가정할 때 v를 단위 양만큼 증가시키면 손실이 얼마나 변하는가?
이 양을 v에 대한 손실의 그레이디언트라고 합니다. 왜 그레이디언트가 필요할까요? 그레이디언트를 알게 되면 이와 반대 방향으로 v를 조정할 수 있기 때문에 손실 값이 줄어듭니다. x나 y에 대한 손실의 그레이디언트는 필요하지 않습니다. x와 y는 고정된 입력 데이터로 업데이트할 필요가 없기 때문입니다.
그림 2-9에 나타나 있듯이, 손실 값에서 시작하여 변수 v에 도달할 때까지 거꾸로 그레이디언트가 단계별로 계산됩니다. 계산이 수행되는 방향 때문에 이 알고리즘을 ‘역전파’라고 부릅니다. 이 단계를 따라가 보죠. 다음 각 단계는 그림에 있는 하나의 화살표에 해당됩니다.
• loss 에지에서 그레이디언트 값 1로 시작합니다. 그 이유는 단순합니다. loss가 단위 양만큼 증가하면 loss 자체가 단위 양만큼 증가하기 때문입니다.13
• e3 에지에서 현재 e3 값의 단위 변화에 대한 손실의 그레이디언트를 계산합니다. 이전 연산이 제곱입니다. 따라서 e3에 대한 (e3)2의 도함수(하나의 변수가 있는 그레이디언트)가 2 * e3라는 기본 미분 공식을 사용해 그레이디언트 값 2 * -5 = -10을 얻습니다. -10을 이전의 그레이디언트(즉, 1)와 곱해서 e3 에지의 그레이디언트 -10을 얻습니다. 이것이 e3가 1만큼 증가되었을 때 손실의 증가 양입니다. 여기서 볼 수 있듯이, 한 에지에 대한 손실의 그레이디언트에서 시작하여 다음 에지에 대한 손실까지 가는 데 사용한 규칙은 현재 노드에서 지엽적으로 계산한 그레이디언트와 이전의 그레이디언트를 곱하는 것입니다. 이 규칙을 연쇄 법칙(chain rule)이라고 합니다.