이미지 분할 모델의 출력은 복잡한 3차원 텐서 형태를 가집니다. 이 텐서는 입력 이미지의 폭과 너비에 대응하는 차원을 갖고 있어야 하며, 각 픽셀에 대한 클래스 정보를 포함합니다. 영역 분할 모델의 출력을 설명하는 중요한 포인트는 3차원 텐서라는 점, 입력 이미지와 동일한 폭과 너비를 가져야 하며, 출력 텐서가 입력 이미지의 지역적 정보를 잘 반영해야 한다는 것입니다. 이러한 출력 특성은 영역 분할 모델이 단순히 이미지 전체 또는 개별 객체를 분류하는 것을 넘어서 이미지의 모든 픽셀에 대해 상세한 예측을 수행할 수 있도록 합니다.
기존 작업에서는 주로 완전 연결 층을 사용하여 출력을 생성합니다. 이러한 접근법은 이미지 전체 또는 객체 수준의 정보에 초점을 맞추며, 결과적으로 출력 값의 형태가 상대적으로 단순하고 규모가 크지 않습니다. 반면 영역 분할 작업에서는 이러한 완전 연결 층이 출력 값을 표현하기에 부적합합니다. 영역 분할은 이미지를 구성하는 픽셀 단위에서 각각의 정보를 판단해야 하므로 훨씬 더 세밀하고 복잡한 출력 형태가 필요합니다. 따라서 영역 분할 모델은 3차원 텐서를 출력할 수 있는 출력층을 필요로 합니다. 이 출력층은 입력 이미지의 각 픽셀에 대해 해당 픽셀이 속할 클래스를 예측해야 하며, 이를 위해 일반적으로 합성곱 층을 사용하여 픽셀 단위의 예측을 수행합니다.