앵커 박스 도입
YOLO v1 모델은 각 그리드 셀에 대한 바운딩 박스 좌표를 초기에 0에서 1 사이의 값으로 무작위로 설정한 후, 학습 과정을 통해 이 좌표 값들을 점차 최적화해나갑니다. 이와 대조적으로, Faster R-CNN은 처음부터 9개의 앵커 박스를 정의하고, 바운딩 박스 회귀를 통해 x, y 좌표와 종횡비를 조정하는 방식을 채택합니다. 이 방법은 좌표를 예측하는 것보다 오프셋을 예측하는 문제를 해결하는 것이 더 단순하고 학습하기에 용이하다는 이점이 있습니다.
YOLO v2에서는 앵커 박스 개념을 적용하면서 네트워크 구조에 수정을 가했습니다. 구체적으로 더 높은 해상도의 출력을 얻기 위해 풀링 층을 제거하였습니다. 또한 네트워크의 입력 이미지 사이즈를 이전의 448×448에서 416×416으로 조정하였습니다. 이러한 조정의 목적은 최종 출력 특성 지도의 사이즈를 홀수로 만들어 그 중앙에 단일 중심 셀을 배치함으로써, 큰 객체들이 이미지의 중심을 차지하는 경향을 더 잘 포착하기 위함입니다.