더북(TheBook)

2.2.1 데이터 준비

데이터 호출에는 파이썬 라이브러리(판다스(Pandas))를 이용하는 방법과 텐서플로를 이용하는 방법이 있습니다. 데이터가 이미지일 경우(이미지 모델을 사용해야 할 경우) 분산된 파일에서 데이터를 읽은 후 전처리를 하고 배치 단위로 분할하여 처리합니다. 데이터가 텍스트일 경우(텍스트 모델을 사용해야 할 경우) 임베딩 과정3을 거쳐 서로 다른 길이의 시퀀스(sequence)를 배치 단위로 분할하여 처리합니다.

다음은 텐서플로를 이용하여 데이터셋을 불러오는 다양한 방법입니다. 각 방법을 하나씩 살펴보겠습니다. 참고로 2.2절의 코드는 모두 사용 방법에 대한 예시이므로 눈으로만 살펴보세요.

 

 

임의 데이터셋 사용

임의의 데이터들을 Dataset으로 만든 후 텐서(tf.Tensor)로 변환하여 사용합니다.

import tensorflow as tf ------ 텐서플로 라이브러리 호출
x = np.random.sample((100,3)) ------ (100, 3) 형태의 무작위 난수 생성
dataset = tf.data.Dataset.from_tensor_slices(x) ------ 일반 이미지나 배열을 list 형식으로 Dataset에 넣어 줍니다.

 

 

텐서플로에서 제공하는 데이터셋 사용

이때는 tensorflow_datasets라는 별도의 패키지를 사용합니다. tensorflow_datasets 패키지를 사용하려면 먼저 pip 명령어로 패키지를 설치해야 합니다.

> pip install tensorflow-datasets

그러고 나서 tfds 이름으로 tensorflow_datasets 패키지를 호출합니다.

import tensorflow_datasets as tfds
ds = tfds.load('mnist', split='train', shuffle_files=True)

 

 


  3 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자 형태인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체를 의미합니다. 자세한 내용은 ‘10장 자연어 처리를 위한 임베딩’을 참고하세요.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.