4. 추가한 데이터셋의 GCS 경로를 불러온 후 tf.Dataset으로 변환
앞서 TPU의 특징에서 데이터셋은 반드시 로컬 디스크에 있을 필요가 없고, 더 효율적인 클라우드 스토리지에 저장해 사용할 수 있다고 설명했습니다.10 사실 캐글 플랫폼의 모든 클라우드 컴퓨터 및 스토리지는 구글 클라우드를 사용하고 있습니다. 따라서 모든 캐글 데이터셋은 구글 클라우드 스토리지(GCS)11로 관리되고 있습니다. 방금 전에 추가한 TFRecord 데이터셋 또한 구글 클라우드 스토리지에 있으므로 해당 경로(gs://..)를 쉽게 불러올 수 있습니다.
from kaggle_datasets import KaggleDatasets
GCS_DS_PATH = KaggleDatasets().get_gcs_path("fkms-jigsaw-tfrecord-files")
>>> print(GCS_DS_PATH)
>>> !gsutil ls $GCS_DS_PATH # Private 데이터셋인 경우 접근 불가
gs://kds-ed81506de...
gs://kds-ed81506de.../test.tfrecord
gs://kds-ed81506de.../train.tfrecord
gs://kds-ed81506de.../bert_base_uncased/