1 소규모 데이터셋으로 만드는 강력한 학습 모델
딥러닝을 이용한 프로젝트는 어떤 데이터를 가지고 있는지, 어떤 목적을 가지고 있는지 잘 살펴보는 것부터 시작합니다. 내가 가진 데이터에 따라 딥러닝 알고리즘을 결정해야 하는데, 딥러닝 및 머신 러닝 알고리즘은 크게 두 가지 유형으로 나뉩니다. 정답을 알려 주고 시작하는가 아닌가에 따라 지도 학습(supervised learning) 방식과 비지도 학습(unsupervised learning) 방식으로 구분되지요. 지금까지 이 책에서 살펴본 폐암 수술 환자의 생존율 예측, 피마 인디언의 당뇨병 예측, CNN을 이용한 MNIST 분류 등은 각 데이터 또는 사진마다 ‘클래스’라는 정답을 주고 시작했습니다. 따라서 모두 ‘지도 학습’의 예가 됩니다. 반면 19장에서 배운 GAN이나 오토인코더는 정답을 예측하는 것이 아니라 주어진 데이터의 특성을 찾았기 때문에 ‘비지도 학습’의 예가 됩니다.
이번에 진행할 프로젝트는 MRI 뇌 사진을 보고 치매 환자의 뇌인지, 일반인의 뇌인지 예측하는 것입니다. 각 사진마다 치매 혹은 일반인으로 클래스가 주어지므로 지도 학습의 예라고 할 수 있겠지요. 이미지를 분류할 것이므로 이미지 분류의 대표적인 알고리즘인 컨볼루션 신경망(CNN)을 선택해 진행하겠습니다.