이미지 처리 바이블: 5.2.2 YOLO9000과 YOLO v3

slide 1 of 18, currently active
slide 2 of 18
slide 3 of 18
slide 4 of 18
slide 5 of 18
slide 6 of 18
slide 7 of 18
slide 8 of 18
slide 9 of 18
slide 10 of 18
slide 11 of 18
slide 12 of 18
slide 13 of 18
slide 14 of 18
slide 15 of 18
slide 16 of 18
slide 17 of 18
slide 18 of 18

앵커 박스 도입

YOLO v1 모델은 각 그리드 셀에 대한 바운딩 박스 좌표를 초기에 0에서 1 사이의 값으로 무작위로 설정한 후, 학습 과정을 통해 이 좌표 값들을 점차 최적화해나갑니다. 이와 대조적으로, Faster R-CNN은 처음부터 9개의 앵커 박스를 정의하고, 바운딩 박스 회귀를 통해 x, y 좌표와 종횡비를 조정하는 방식을 채택합니다. 이 방법은 좌표를 예측하는 것보다 오프셋을 예측하는 문제를 해결하는 것이 더 단순하고 학습하기에 용이하다는 이점이 있습니다.

YOLO v2에서는 앵커 박스 개념을 적용하면서 네트워크 구조에 수정을 가했습니다. 구체적으로 더 높은 해상도의 출력을 얻기 위해 풀링 층을 제거하였습니다. 또한 네트워크의 입력 이미지 사이즈를 이전의 448×448에서 416×416으로 조정하였습니다. 이러한 조정의 목적은 최종 출력 특성 지도의 사이즈를 홀수로 만들어 그 중앙에 단일 중심 셀을 배치함으로써, 큰 객체들이 이미지의 중심을 차지하는 경향을 더 잘 포착하기 위함입니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.