더북(TheBook)

2011년 즈음에는 일부 연구자들이 신경망의 CUDA 구현을 만들기 시작했습니다. 댄 크리슨(Dan Ciresan)과 알렉스 크리제브스키(Alex Krizhevsky)가 여기에 해당합니다. 오늘날 고성능 GPU는 심층 신경망을 훈련할 때 전형적인 CPU보다 수백 배 더 많은 병렬 컴퓨팅 성능을 제공할 수 있습니다. 최신 CPU의 놀라운 계산 능력이 없다면 많은 최첨단 심층 신경망을 훈련하는 것은 불가능합니다.

 

데이터셋과 벤치마크

하드웨어와 알고리즘이 딥러닝 혁명의 증기 기관이라면 데이터는 연료입니다. 지능적인 기계에 동력을 제공하는 원자재가 없다면 아무것도 가능하지 않습니다. 데이터에 관해 (무어의 법칙(Moore’s law)을 따라) 지난 20년간 스토리지 하드웨어의 기하급수적인 발전과 더불어 머신 러닝을 위한 대규모 데이터셋을 수집하고 배포하는 것을 가능하게 만든 인터넷의 등장이 게임 체인저가 되었습니다. 오늘날 큰 회사들은 인터넷 없이는 수집하기 불가능한 이미지 데이터셋, 비디오 데이터셋, 자연어 처리 데이터셋을 사용합니다. 예를 들어 플리커(Flickr)에게는 사용자가 생성한 이미지 태그(tag)가 컴퓨터 비전을 위한 보물 같은 데이터입니다. 유튜브(YouTube) 비디오도 마찬가지입니다. 위키피디아(Wikipedia)는 자연어 처리의 주요 데이터셋입니다.

딥러닝의 부흥을 촉진시킨 한 데이터셋이 있다면, 그것은 바로 사람이 1,000개 카테고리로 분류한 140만 개의 이미지가 담긴 ImageNet입니다. ImageNet을 특별하게 만든 것은 단지 크기뿐만 아니라 이와 연계되어 매년 열린 경연 대회도 있습니다. 2010년부터 ImageNet과 캐글이 보여주었듯이, 공개 경쟁은 연구자와 엔지니어가 한계를 넘도록 동기를 부여하는 훌륭한 방법입니다. 연구자가 경쟁할 수 있는 공통 벤치마크가 있다는 것은 최근 딥러닝의 부흥에 큰 도움이 되었습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.