더북(TheBook)

앞선 예제는 따라 하기 쉽도록 의도적으로 간단하게 만들었습니다. 이 예제가 역전파의 핵심을 알려 주지만, 실제 신경망 훈련에서 일어나는 역전파는 다음과 같은 측면에서 다릅니다.

단순한 훈련 샘플(이 예에서는 x = 2y = 5)을 제공하는 대신 일반적으로 여러 샘플로 구성된 배치를 제공합니다. 그레이디언트를 유도하는 데 사용되는 손실 값은 모든 개별 샘플의 손실에 대한 산술 평균입니다.

일반적으로 업데이트할 변수는 매우 많은 원소를 가집니다. 따라서 앞에서처럼 하나의 변수가 있는 단순한 도함수 대신에 종종 행렬 미분을 사용합니다.

하나의 변수에 대한 그레이디언트를 계산하는 대신 일반적으로 여러 개의 변수가 관련됩니다. 그림 2-10은 최적화할 두 개의 변수를 가진 조금 더 복잡한 선형 모델인 y' = k * x + b를 보여 줍니다. 이 모델은 k 외에도 편향 b를 가지고 있습니다. 여기서는 두 개의 그레이디언트를 계산합니다. 하나는 k에 대한 그레이디언트이고, 다른 하나는 b에 대한 그레이디언트입니다. 두 역전파의 경로는 모두 손실에서 출발합니다. 이 경로는 일부 에지를 공유하며 트리와 같은 구조를 형성합니다.

▲ 그림 2-10 손실에서 업데이트할 두 개의 가중치(k와 b)로 역전파되는 것을 보여 주는 그림

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.