더북(TheBook)

Note ≣ | 비공개 데이터셋의 TPU 사용

TPU에 사용할 TFRecord를 담은 캐글 데이터셋은 웬만하면 공개로 하는 것이 좋다고 설명했습니다. 하지만 부득이하게 반드시 비공개(Private)로 해야 한다면 방법이 아예 없지는 않습니다. 학습하기 전, 내 데이터셋의 권한을 TPU에 양도하는 인증 절차를 추가하면 됩니다.12

하지만 이 방법은 한 가지 단점이 있습니다. 비공개 데이터셋(Private Dataset)으로 TPU 학습은 가능하지만, 위와 같이 GCS 경로의 데이터를 노트북에서 직접 확인하려고 하면 권한 문제로 에러가 발생합니다. 좀 불편하겠죠? 따라서 특별한 이유가 없다면 공개 데이터셋으로 적용할 것을 권장합니다.

텐서플로에서는 GCS에 있는 TFRecord 파일을 손쉽게 TFRecordDataset으로 구성할 수 있습니다. TFRecord 파일을 생성할 때는 전처리 및 토큰화한 텍스트를 이진 데이터로 변환하여 저장했습니다. 딥러닝 모델 학습을 위해서는 주어진 데이터를 만들 때 사용했던 형태(format)와 그에 대한 정보(데이터 타입, 데이터 차원 등)를 같이 전달해 학습에 활용할 수 있도록 합니다. read_labeled_tfrecord 함수에서 그 역할을 하며, 이를 사용해 모델 학습에 사용할 텐서플로 데이터셋을 구성합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.