더북(TheBook)

후보 영역 추출 네트워크는 특성 맵 N×N 크기의 작은 윈도우 영역을 입력으로 받고, 해당 영역에 객체의 존재 유무 판단을 위해 이진 분류(binary classification)를 수행하는 작은 네트워크를 생성합니다. R-CNN, Fast R-CNN에서 사용되었던 바운딩 박스 회귀 또한 위치 보정(좌표점 추론)을 위해 추가합니다. 또한, 하나의 특성 맵에서 모든 영역에 대한 객체의 존재 유무를 확인하기 위해서는 슬라이딩 윈도우 방식으로 앞서 설계한 작은 윈도우 영역(N×N 크기)을 이용하여 객체를 탐색합니다.

▲ 그림 6-34 후보 영역 추출 네트워크

하지만 후보 영역 추출 네트워크는 이미지에 존재하는 객체들의 크기와 비율이 다양하기 때문에 고정된 N×N 크기의 입력만으로 다양한 크기와 비율의 이미지를 수용하기 어려운 단점이 있습니다. 이러한 단점을 보완하기 위해 여러 크기와 비율의 레퍼런스 박스(reference box) k개를 미리 정의하고 각각의 슬라이딩 윈도우 위치마다 박스 k개를 출력하도록 설계하는데, 이 방식을 앵커(anchor)라고 합니다. 즉, 후보 영역 추출 네트워크의 출력 값은 모든 앵커 위치에 대해 각각 객체와 배경을 판단하는 2k개의 분류에 대한 출력과 x, y, w, h 위치 보정 값을 위한 4k개의 회귀 출력을 갖습니다. 예를 들어 특성 맵 크기가 w×h라면 하나의 특성 맵에 앵커가 총 w×h×k개 존재합니다.

▲ 그림 6-35 앵커

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.