출력을 이미지 텐서로 간주하면(이런 방식으로 보는 것이 유효합니다!), 필터 개수를 출력에 있는 채널 개수로 이해할 수 있습니다. 입력 이미지와 달리 출력 텐서의 채널은 실제로 컬러와 관련이 없습니다. 대신 훈련 데이터에서 학습된 입력 이미지의 여러 시각적 특성을 표현합니다. 예를 들어 어떤 필터는 특정 각도에서 밝은 영역과 어두운 영역 사이의 직선 경계에 민감할 수 있습니다. 다른 필터는 갈색의 모서리에 민감할 수 있는 식입니다. 나중에 더 자세히 설명하겠습니다.
앞에서 언급한 슬라이딩은 입력 이미지에서 작은 패치를 추출하는 것으로 표현되었습니다. 각 패치의 높이와 너비는 kernelSize와 같습니다(이 경우는 3). 입력 이미지의 높이가 4이므로 높이 차원을 따라 두 번의 슬라이딩 위치만 가능합니다. 3 × 3 커널 윈도가 입력 이미지 밖으로 나가지 않아야 하기 때문입니다. 비슷하게 입력 이미지의 너비(5)를 따라 세 번의 슬라이딩 위치만 가능합니다. 따라서 2 × 3 = 6개의 이미지 패치가 추출됩니다.
각 슬라이딩 위치에서 점곱 연산이 수행됩니다. 합성곱 커널의 크기는 [3, 3, 2, 3]입니다. 이 4D 텐서를 마지막 차원을 따라 세 개의 3D 텐서로 나누면 그림 4-3에 파선으로 표시된 [3, 3, 2] 크기 텐서가 됩니다. 이미지 패치와 이 3D 텐서 중 하나를 선택하여 픽셀별로 곱셈을 수행하고 3 * 3 * 2 = 18개의 값을 모두 더하여 출력 텐서의 한 픽셀을 얻습니다. 그림 4-4는 점곱 연산을 자세히 설명합니다. 이미지 패치와 합성곱 커널의 한 조각(즉, 필터)이 크기가 같은 것은 우연이 아닙니다. 커널 크기에 맞춰 이미지 패치를 추출했기 때문입니다! 곱셈과 덧셈 연산은 모든 필터에 반복되어 세 개의 숫자를 만듭니다. 그다음, 이 점곱 연산이 나머지 이미지 패치에도 반복되어 그림에 있는 정육면체 세 개로 이루어진 열이 여섯 개가 만들어집니다. 이 열은 연결되어 최종적으로 [2, 3, 3] 크기(HWC)의 출력을 만듭니다.