16.3.1 구글넷 영상 인식
딥러닝이 컴퓨터 비전 분야에서 크게 발전할 수 있었던 이유 중에는 ILSVRC(ImageNet Large Scale Visual Recognition Competition) 대회의 영향도 있습니다. ILSVRC는 영상 인식과 객체 검출 등의 성능을 겨루는 일종의 알고리즘 경진 대회로서 2010년부터 매년 개최되고 있습니다. ILSVRC는 ImageNet이라는 대규모 영상 데이터베이스를 이용하며, 특히 영상 인식 분야에서는 1000개의 카테고리로 분류된 100만 개 이상의 영상을 사용하여 성능을 비교하였습니다. 이 대회에서 2012년에 알렉스넷(AlexNet)이라는 딥러닝 알고리즘이 기존 컴퓨터 비전 및 머신 러닝 기반의 알고리즘보다 월등히 높은 성능을 나타내면서 컴퓨터 비전 분야에 딥러닝 열풍이 시작되었습니다[Krizhevsky12].
구글넷(GoogLeNet)은 이름에서 알 수 있듯이 구글(Google)에서 발표한 네트워크 구조이며, 2014년 ILSVRC 영상 인식 분야에서 1위를 차지했습니다[Szegedy15]. 구글넷은 총 22개의 레이어로 구성되었으며, 이는 동시대에 발표되었던 딥러닝 네트워크 구조 중에서 가장 많은 레이어를 사용한 형태입니다. 레이어를 매우 깊게 설계하였지만 완전 연결 레이어가 없는 구조를 통해 기존의 다른 네트워크보다 파라미터 수가 훨씬 적은 것이 특징입니다. 구글넷은 특히 다양한 크기의 커널을 한꺼번에 사용하여 영상에서 큰 특징과 작은 특징을 모두 추출할 수 있도록 설계되었습니다. 구글넷의 전체 네트워크 구조를 그림 16-10에 나타냈습니다.
▲ 그림 16-10 구글넷 네트워크 구조7
7 그림 출처: [Szegedy15]