더북(TheBook)

6.1.2 AlexNet

AlexNet은 ImageNet 영상 데이터베이스를 기반으로 한 화상 인식 대회 ‘ILSVRC 2012’에서 우승한 CNN 구조입니다.

AlexNet을 설명하기에 앞서 AlexNet의 세부 블록을 이해하고자 CNN 구조를 다시 살펴봅시다. CNN은 그림 6-8과 같이 3차원 구조를 갖는다는 것을 이해해야 합니다(이미지를 다루기 때문에 기본적으로 3차원 데이터를 다룹니다). 이미지 크기를 나타내는 너비(width)와 높이(height)뿐만 아니라 깊이(depth)를 갖습니다. 보통 색상이 많은 이미지는 R/G/B 성분 세 개를 갖기 때문에 시작이 3이지만, 합성곱을 거치면서 특성 맵이 만들어지고 이것에 따라 중간 영상의 깊이가 달라집니다. 이것을 이해했다면 AlexNet 구조에 있는 숫자 의미에 대한 이해도 가능합니다.

▲ 그림 6-8 CNN 구조

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.