더북(TheBook)

Note ≡ 지역화


▲ 그림 6-40 지역화

지역화(localization)는 오른쪽 그림과 같이 이미지 안에 객체(고양이) 위치 정보를 출력해 주는 것으로, 주로 바운딩 박스를 많이 사용합니다. 바운딩 박스의 네 꼭지점 픽셀 좌표가 출력되는 것이 아닌 왼쪽 위(left top), 오른쪽 아래(right bottom) 좌표를 출력합니다.

다음은 U-Net 구조입니다.

U-Net은 FCN을 기반으로 구축되었으며, 수축 경로(contracting path)와 확장 경로(expansive path)로 구성되어 있습니다.

수축 경로는 컨텍스트를 포착하며, 확장 경로는 특성 맵을 업 샘플링하고 수축 경로에서 포착한 특성 맵의 컨텍스트와 결합하여 정확한 지역화를 수행합니다.

U-Net은 3×3 합성곱이 주를 이루는데 각 합성곱 블록은 3×3 합성곱 두 개로 구성되어 있으며, 그 사이에 드롭아웃(dropout)이 있습니다. 다음 그림의 왼쪽 수축 경로에서의 블록은 3×3 합성곱 두 개로 구성된 것이 네 개가 있는 형태입니다. 그리고 각 블록은 최대 풀링(maxpool)을 이용하여 크기를 줄이면서 다음 블록으로 넘어갑니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.