더북(TheBook)

1.3.2 데이터

이따금 AI는 새로운 산업 혁명으로 불립니다. 딥러닝이 이 혁명의 증기 기관이라면 데이터는 이 기관에 필요한 연료입니다. 인공 지능이란 기관을 움직이는 원료가 없다면 어떤 것도 불가능합니다. 데이터에 관해서라면 지난 20년간 (무어의 법칙(Moore’s law)에 따라) 저장 장치의 급격한 발전과 더불어, 머신 러닝을 위한 대량의 데이터셋을 수집하고 배포할 수 있는 인터넷 성장이 시장의 판도를 바꾸었습니다. 요즘 큰 규모의 회사들이 사용하는 이미지 데이터셋, 비디오 데이터셋, 자연어 데이터셋은 인터넷 없이는 수집할 수 없습니다. 예를 들어 플리커(Flickr)에서 사용자가 붙인 이미지 태그는 컴퓨터 비전의 입장에서는 보물 같은 데이터입니다. 유튜브(YouTube) 비디오도 마찬가지입니다. 위키피디아(Wikipedia)는 자연어 처리 분야에 필요한 핵심 데이터셋입니다.

딥러닝의 성장을 이끈 촉매제와 같은 데이터셋 하나를 꼽는다면, 바로 1,400만 개의 이미지를 1,000개의 범주로 구분해 놓은 ImageNet 데이터셋입니다(하나의 이미지는 하나의 범주에 속합니다). ImageNet이 특별한 것은 크기만이 아니라 이와 연계되어 매년 열린 경연 대회입니다.21

캐글이 2010년에 선보인 후 공개 경연 대회는 연구자들과 기술자들이 한계를 뛰어넘도록 만드는 아주 훌륭한 도구가 되었습니다. 연구자들이 경쟁하기 위한 공통의 벤치마크가 있다는 것은 딥러닝의 성장에 큰 도움을 주었습니다. 전통적인 머신 러닝에 비해서 이런 대회에서 우승하는 것은 크게 부각되었기 때문입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.