• He 초기화 방식: 이 방식에는 he_uniform과 he_normal이 있습니다. 이 방식은 Xavier 방식의 한계를 극복하려고 제안된 기법입니다. 또한, ResNet을 학습시킬 때 이 기법을 사용하여 실제로 CNN의 깊은 신경망을 잘 학습시킬 수 있음을 보여 주었습니다. 수식으로 표현하면 다음과 같습니다.
수식을 살펴보면 Xavier 방식에서 다시 fan out을 제거했습니다. 즉, fan out보다 fan in에 집중한 가중치로 이해하면 됩니다.
Note ≡ fan in과 fan out
fan in이란 해당 계층에 들어오는 입력 텐서(input tensor)에 대한 차원의 크기입니다. fan out은 해당 계층이 출력하는 출력 텐서(output tensor)의 크기입니다. 예를 들어 1000×200 크기의 완전연결층에서 fan in은 1000, fan out은 200이 됩니다. 하지만 CNN과 RNN은 좀 더 복잡해집니다.
② data_format은 입력에 대한 형식을 지정할 때 사용합니다.
입력 형식을 설정하는 파라미터로 'channels_last'와 'channels_first'가 있으며, 기본값은 'channels_last'입니다. 'channels_last'를 사용하면 입력 데이터 텐서의 형식이 (배치 크기, 높이, 너비, 채널 개수)가 되며, 'channels_first'를 사용하면 입력 데이터 텐서의 형식이 (배치 크기, 채널 개수, 높이, 너비)가 됩니다.