더북(TheBook)

3 데이터 불러오기

이 장에서는 인공지능이 기존의 숫자 손글씨를 학습하여 스스로 새로운 숫자 손글씨를 만들어 내도록 하는 것이 목적입니다. 따라서 인공지능에 기존의 숫자 손글씨 데이터를 제공하여야 합니다.

이번 예제에서는 mnist 데이터셋 중 일부만 사용할 예정입니다. 물론 모든 데이터를 사용하면 좋지만, 그러기엔 학습 시간이 오래 걸리기 때문에 일부(숫자 이미지 10,000개)만 사용하겠습니다.

TIP

mnist 데이터셋은 훈련 데이터(train)와 검증 데이터(test)로 구분되어 있습니다. 이때 훈련 데이터의 수는 60,000개이며, 검증 데이터의 수는 10,000개입니다. 우리는 10,000개만 사용하면 되기 때문에 검증 데이터만 사용할 예정입니다.

혹시 시간이 조금 더 걸리더라도 인공지능이 손글씨를 더 많이 학습하기를 원한다면 60,000개의 데이터가 포함된 훈련 데이터(x_train)를 불러와도 됩니다.

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_test = (x_test.astype(np.float32) - 127.5)/127.5
mnist_data = x_test.reshape(10000, 784)
print(mnist_data.shape)
len(mnist_data)

실행 결과

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
11493376/11490434 [==============================] - 0s 0us/step
(10000, 784)
10000
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.