이 과정을 정리하면 다음과 같습니다.
1. 입력(x)과 레이블(y) 관계를 설명하는 함수 H(x)=x가 되도록 학습시킵니다.
2. F(x)가 0이 되도록 학습시킵니다.
3. 결국 F(x)+x=H(x)=x가 되도록 학습시키면 F(x)+x의 미분 값은 F′(x)+1로 최소 1 이상의 값이 도출됩니다.
4. 모든 계층에서 기울기가 F′(x)+1이므로 (오차가 0에 가깝게 수렴하여 발생하는) 기울기 소멸 문제가 해결됩니다.
결국 ResNet 구조는 다음 그림과 같이 숏컷으로 만들어진 블록인 아이덴티티 블록(identity block)과 합성곱층으로 구성된 합성곱 블록(convolutional block)으로 구성됩니다.
▲ 그림 6-21 아이덴티티 블록
▲ 그림 6-22 합성곱 블록