더북(TheBook)

▼ 표 5-1 YOLO 9000 모델의 다양한 입력 사이즈에 따른 성능 비교

인풋 사이즈

평균 정밀도

FPS

288x288

69.0

91

352x352

73.7

81

416x416

76.8

67

480x480

77.8

59

544x544

78.6

40

YOLO v1에서는 DarkNet을 먼저 224×224 해상도로 사전 학습시킨 후, 네트워크가 객체 탐지 작업을 진행하면서 동시에 새로운 해상도에 적응하도록 훈련시키는 방식으로 객체 탐지를 할 때는 해상도를 2배 늘려 448×448 사이즈의 이미지를 사용합니다.

그에 반해 YOLO v2는 처음부터 높은 해상도로 DarkNet을 사전 학습시킵니다. 이는 네트워크가 처음부터 끝까지 높은 해상도의 이미지에 익숙해지게 해서 모델의 mAP를 약 4% 향상시키는 데 기여합니다. 이렇게 해상도를 일정하게 유지하는 것이 네트워크 성능에 더 좋을 수 있음을 보여주었습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.