더북(TheBook)

6.1.2 AlexNet

AlexNet은 ImageNet 영상 데이터베이스를 기반으로 한 화상 인식 대회인 ‘ILSVRC 2012’에서 우승한 CNN 구조입니다.

AlexNet을 설명하기에 앞서 AlexNet의 세부 블록을 이해하고자 CNN 구조를 다시 살펴봅시다. CNN은 다음 그림과 같이 3차원 구조를 갖는다는 것을 이해해야 합니다(이미지를 다루기 때문에 기본적으로 3차원 데이터를 다룹니다). 이미지 크기를 나타내는 너비(width)와 높이(height)뿐만 아니라 깊이(depth)를 갖습니다. 보통 색상이 많은 이미지는 R/G/B 성분 세 개를 갖기 때문에 시작이 3이지만, 합성곱을 거치면서 특성 맵이 만들어지고 이것에 따라 중간 영상의 깊이가 달라집니다.

▲ 그림 6-8 CNN 구조

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.