특징 피라미드 네트워크를 이용한 멀티 스케일 예측
YOLO v1의 큰 단점으로 여겨지던 부분 중 하나는 바로 작은 사이즈를 가진 객체의 탐지 능력이 기존 two-stage detector에 비해 떨어진다는 점이었습니다. YOLO v3에서는 기존 단점을 커버하는 멀티 스케일 예측 성능을 올리기 위한 다양한 방법론을 제안합니다. 모델의 전체적인 흐름에 대해 살펴보겠습니다.
▲ 그림 5-26 YOLO v3 전체 프로세스
위 그림은 모델이 멀티 스케일을 예측하는 전체적인 흐름도를 보여줍니다. DarkNet-53, YOLO v3의 백본 아키텍처는 입력 이미지를 다양한 층에 통과시킵니다. 이 과정에서 여러 사이즈의 특징 맵을 생성합니다. 입력 이미지의 해상도가 608×608이라면, 특징 맵들은 각각 19×19, 26×26, 52×52 등의 해상도를 가지며, 네트워크가 생성하는 특징 맵의 사이즈 및 해상도를 나타냅니다.