특히 R-CNN에서는 알렉스넷 구조를 활용하여 특징을 추출합니다. 합성곱 층은 이미지의 지역적인 특징을 학습하고, 완전 연결 층은 이미지의 전역적인 정보를 학습합니다. 이러한 층들의 조합을 통해, R-CNN은 이미지 내의 복잡한 패턴과 특성을 효과적으로 파악하며, 이 정보는 후속 과정에서 객체의 분류와 경계 상자의 정밀화를 위해 사용됩니다.
SVM을 활용한 분류
R-CNN에서는 객체 탐지의 마지막 단계로 서포트 벡터 머신(Support Vector Machine, SVM) 분류기를 사용하여 각각의 영역 제안을 특정 객체 클래스로 분류합니다. SVM은 머신 러닝의 분류 문제에서 꾸준히 높은 성능을 보여주는 알고리즘이며, 딥러닝이 대중화되기 전에는 이미지 분류 작업에서 주로 사용되던 방법 중 하나였습니다. 일반적인 고양이와 강아지 사진을 분류한다고 했을 때 각 고양이(△)와 강아지(○)의 특징을 합성곱 신경망으로 추출한 후 2D 공간으로 투영을 시킵니다. 경계선은 다음과 같이 그려집니다.
▲ 그림 5-8 일반적인 분류기 결과 예시