6.3.4 PSPNet
PSPNet(Pyramid Scene Parsing Network)은 CVPR(The IEEE Conference on Computer Vision and Pattern Recognition) 2017에서 발표된 시멘틱 분할 알고리즘입니다.
PSPNet 역시 완전연결층의 한계를 극복하기 위해 피라미드 풀링 모듈을 추가했으며 훈련 과정은 다음과 같습니다.
1. 이미지 출력이 서로 다른 크기가 되도록 여러 차례 풀링을 합니다. 즉, 1×1, 2×2, 3×3, 6×6 크기로 풀링을 수행하는데, 이때 1×1 크기의 특성 맵은 가장 광범위한 정보를 담습니다. 각각 다른 크기의 특성 맵은 서로 다른 영역들의 정보를 담는다고 이해하면 됩니다.
2. 이후 1×1 합성곱을 사용하여 채널 수를 조정합니다. 풀링층 개수를 N이라고 할 때 출력 채널 수=입력 채널 수/N이 됩니다.
3. 이후 모듈의 입력 크기에 맞게 특성 맵을 업 샘플링합니다. 이 과정에서 양선형 보간법(bilinear interpolation)이 사용됩니다.
4. 원래의 특성 맵과 1~3 과정에서 생성한 새로운 특성 맵들을 병합합니다.
▲ 그림 6-52 PSPNet
그림 6-52는 풀링을 네 개 사용했지만, 구현에 따라서 다르게 설정할 수 있습니다.