▼ 표 5-1 YOLO 9000 모델의 다양한 입력 사이즈에 따른 성능 비교
인풋 사이즈 |
평균 정밀도 |
FPS |
288x288 |
69.0 |
91 |
352x352 |
73.7 |
81 |
416x416 |
76.8 |
67 |
480x480 |
77.8 |
59 |
544x544 |
78.6 |
40 |
YOLO v1에서는 DarkNet을 먼저 224×224 해상도로 사전 학습시킨 후, 네트워크가 객체 탐지 작업을 진행하면서 동시에 새로운 해상도에 적응하도록 훈련시키는 방식으로 객체 탐지를 할 때는 해상도를 2배 늘려 448×448 사이즈의 이미지를 사용합니다.
그에 반해 YOLO v2는 처음부터 높은 해상도로 DarkNet을 사전 학습시킵니다. 이는 네트워크가 처음부터 끝까지 높은 해상도의 이미지에 익숙해지게 해서 모델의 mAP를 약 4% 향상시키는 데 기여합니다. 이렇게 해상도를 일정하게 유지하는 것이 네트워크 성능에 더 좋을 수 있음을 보여주었습니다.