더북(TheBook)

바운딩 박스 회귀

선택적 검색을 통한 영역을 제안받고, SVM을 통해 이미지 내의 각 영역 제안이 어떤 클래스에 속하는지 결정할 수 있지만, 이렇게 얻어진 영역 제안은 종종 실제 객체의 위치와 정확하게 일치하지 않을 수 있습니다. 이를 보정하기 위해 R-CNN은 바운딩 박스 회귀를 사용합니다.

R-CNN에서 바운딩 박스 회귀의 타깃은 4개의 값을 가지며, 각각은 GT(Ground Truth, 바운딩 박스)와 영역 제안 간의 상대적인 변화를 나타냅니다. 두 바운딩 박스를 다음과 같이 정의합니다.

P=(Px, Py, Pw, Ph)는 영역 제안의 중심 좌표, 너비, 높이입니다

G=(Gx, Gy, Gw, Gh)는 GT의 중심 좌표, 너비, 높이입니다.

이를 통해 타깃 값을 계산합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.