이미지 처리 바이블: 5.2.2 YOLO9000과 YOLO v3

slide 1 of 18, currently active
slide 2 of 18
slide 3 of 18
slide 4 of 18
slide 5 of 18
slide 6 of 18
slide 7 of 18
slide 8 of 18
slide 9 of 18
slide 10 of 18
slide 11 of 18
slide 12 of 18
slide 13 of 18
slide 14 of 18
slide 15 of 18
slide 16 of 18
slide 17 of 18
slide 18 of 18

입력 이미지를 416×416 사이즈로 조정하면, 최종적으로 13×13 사이즈의 특성 지도를 얻게 되며, 이는 의 다운샘플링 비율을 나타냅니다. YOLO v1에서는 각 셀마다 2개의 바운딩 박스를 예측해 총 98개의 바운딩 박스를 생성하지만, YOLO v2는 앵커 박스를 활용하여 이보다 많은 수의 바운딩 박스를 예측합니다. 앵커 박스를 사용하지 않았을 때는 평균 정밀도(mAP)가 69.5%, 회수율(recall)이 81%였으나, 앵커 박스를 사용했을 때는 평균 정밀도는 약간 감소한 69.2%로 나타났지만, 회수율은 88%로 상승했습니다. 이는 앵커 박스를 사용할 때 평균 정밀도는 소폭 감소할 수 있으나 회수율의 증가로 인해 모델의 성능 개선 가능성이 높아진다는 것을 의미합니다.

객체 탐지 작업에서 회수율이 높다는 것은 모델이 실제 객체의 위치를 잘 예측하고 있다는 것을 의미합니다. YOLO v1의 회수율이 상대적으로 낮은 이유는 이미지당 예측하는 바운딩 박스의 수가 비교적 적기 때문입니다. 그러나 YOLO v2에서는 앵커 박스를 활용하여 더 많은 바운딩 박스를 예측함으로써 실제 객체의 위치를 더 정확하게 포착하고 결과적으로 회수율이 향상됩니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.