더북(TheBook)

역전파의 중요한 단계는 다음 양을 결정하는 것입니다.

다른 모든 것(여기서는 xy)이 동일하다고 가정할 때 v를 단위 양만큼 증가시키면 손실이 얼마나 변하는가?

이 양을 v에 대한 손실의 그레이디언트라고 합니다. 왜 그레이디언트가 필요할까요? 그레이디언트를 알게 되면 이와 반대 방향으로 v를 조정할 수 있기 때문에 손실 값이 줄어듭니다. xy에 대한 손실의 그레이디언트는 필요하지 않습니다. xy는 고정된 입력 데이터로 업데이트할 필요가 없기 때문입니다.

그림 2-9에 나타나 있듯이, 손실 값에서 시작하여 변수 v에 도달할 때까지 거꾸로 그레이디언트가 단계별로 계산됩니다. 계산이 수행되는 방향 때문에 이 알고리즘을 ‘역전파’라고 부릅니다. 이 단계를 따라가 보죠. 다음 각 단계는 그림에 있는 하나의 화살표에 해당됩니다.

loss 에지에서 그레이디언트 값 1로 시작합니다. 그 이유는 단순합니다. loss가 단위 양만큼 증가하면 loss 자체가 단위 양만큼 증가하기 때문입니다.13

e3 에지에서 현재 e3 값의 단위 변화에 대한 손실의 그레이디언트를 계산합니다. 이전 연산이 제곱입니다. 따라서 e3에 대한 (e3)2의 도함수(하나의 변수가 있는 그레이디언트)가 2 * e3라는 기본 미분 공식을 사용해 그레이디언트 값 2 * -5 = -10을 얻습니다. -10을 이전의 그레이디언트(즉, 1)와 곱해서 e3 에지의 그레이디언트 -10을 얻습니다. 이것이 e3가 1만큼 증가되었을 때 손실의 증가 양입니다. 여기서 볼 수 있듯이, 한 에지에 대한 손실의 그레이디언트에서 시작하여 다음 에지에 대한 손실까지 가는 데 사용한 규칙은 현재 노드에서 지엽적으로 계산한 그레이디언트와 이전의 그레이디언트를 곱하는 것입니다. 이 규칙을 연쇄 법칙(chain rule)이라고 합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.