파이썬과 텐서플로를 설치하였다면 이제 딥러닝을 학습시킬 준비가 모두 되었습니다. 이 절에서 텐서플로로 학습할 대상은 필기체 숫자 영상 인식입니다. 15장에서 k 최근접 이웃과 서포트 벡터 머신 알고리즘을 이용하여 만들었던 필기체 숫자 예제 프로그램을 이 절에서는 딥러닝을 이용하여 만들어 볼 예정입니다. 이를 위해 먼저 딥러닝을 이용하여 필기체 숫자 영상 인식을 학습시키고, 그 결과를 파일로 저장할 것입니다.
딥러닝 분야에서는 필기체 숫자 인식 훈련을 위해 MNIST 데이터셋을 주로 사용합니다.6 MNIST는 뉴욕 대학교 얀 르쿤(Yann LeCun) 교수가 우편 번호 등의 필기체 숫자 인식을 위해 사용했던 데이터셋으로, 6만 개의 훈련용 영상과 1만 개의 테스트 영상으로 구성되어 있습니다. 각각의 숫자 영상은 28×28 크기로 구성되어 있고, 픽셀 값은 0에서 1 사이의 실수 값으로 정규화되어 있습니다. 그림 16-7은 MNIST 데이터셋 일부를 그레이스케일 영상 형식으로 변환하여 나타낸 결과입니다.
▲ 그림 16-7 MNIST 숫자 영상의 예
6 MNIST에 대한 자세한 정보는 http://yann.lecun.com/exdb/mnist/ 웹 사이트를 참고하세요.