더북(TheBook)

다양한 딥러닝 구조 중에서 특히 영상을 입력으로 사용하는 영상 인식, 객체 검출 등의 분야에서는 합성곱 신경망(CNN, Convolutional Neural Network) 구조가 널리 사용되고 있습니다. CNN 구조는 보통 2차원 영상에서 특징을 추출하는 컨볼루션(convolution) 레이어와 추출된 특징을 분류하는 완전 연결(FC, Fully Connected) 레이어로 구성됩니다.3 그림 16-5는 영상 분류를 위한 일반적인 CNN 네트워크 구조를 보여 줍니다. CNN 구조에서 컨볼루션은 7.1.1절에서 설명한 필터링과 유사한 성격을 가지며, 영상의 지역적인 특징을 추출하는 역할을 담당합니다. 풀링(pooling)은 비선형 다운샘플링(down sampling)을 수행하여 데이터양을 줄이고 일부 특징을 강조하는 역할을 합니다. 완전 연결 레이어는 고전적인 다층 퍼셉트론과 비슷한 구조로서, 앞에서 추출된 특징을 이용하여 출력 값을 결정합니다. 보통 컨볼루션 레이어를 여러 개 연결하고, 맨 뒤에 완전 연결 레이어를 연결하는 형태로 CNN 네트워크를 구성합니다.

▲ 그림 16-5 일반적인 CNN 네트워크 구조

 

컴퓨터 비전 분야에서 사용되는 딥러닝 알고리즘은 대부분 CNN 구조를 기본으로 사용하면서 인식의 정확도를 높이거나 연산 속도를 빠르게 하는 등의 목적에 맞게 변형된 형태입니다. 컨볼루션 단계에서 사용하는 커널을 1×1, 3×3, 5×5 등 다양한 크기로 구성하기도 하고, 레이어 사이의 연결 방식도 새롭게 설계하여 효과적인 성능을 얻기도 합니다. 최신 딥러닝 알고리즘에 대한 추가적인 설명은 다른 딥러닝 전문 서적을 참고하기 바랍니다.

 

3 레이어(layer)는 앞에서 신경망 설명에서는 계층으로 표현하였지만, 이후 설명에서는 레이어라고 표기하겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.