입력 이미지를 416×416 사이즈로 조정하면, 최종적으로 13×13 사이즈의 특성 지도를 얻게 되며, 이는 의 다운샘플링 비율을 나타냅니다. YOLO v1에서는 각 셀마다 2개의 바운딩 박스를 예측해 총 98개의 바운딩 박스를 생성하지만, YOLO v2는 앵커 박스를 활용하여 이보다 많은 수의 바운딩 박스를 예측합니다. 앵커 박스를 사용하지 않았을 때는 평균 정밀도(mAP)가 69.5%, 회수율(recall)이 81%였으나, 앵커 박스를 사용했을 때는 평균 정밀도는 약간 감소한 69.2%로 나타났지만, 회수율은 88%로 상승했습니다. 이는 앵커 박스를 사용할 때 평균 정밀도는 소폭 감소할 수 있으나 회수율의 증가로 인해 모델의 성능 개선 가능성이 높아진다는 것을 의미합니다.
객체 탐지 작업에서 회수율이 높다는 것은 모델이 실제 객체의 위치를 잘 예측하고 있다는 것을 의미합니다. YOLO v1의 회수율이 상대적으로 낮은 이유는 이미지당 예측하는 바운딩 박스의 수가 비교적 적기 때문입니다. 그러나 YOLO v2에서는 앵커 박스를 활용하여 더 많은 바운딩 박스를 예측함으로써 실제 객체의 위치를 더 정확하게 포착하고 결과적으로 회수율이 향상됩니다.