더북(TheBook)

Note ≣ | Output 데이터 용량

Notebook Output 데이터는 매번 노트북을 재실행하지 않고도 결과 파일을 다운로드할 수 있어야 합니다. 그러다 보니 Output 데이터를 효율적으로 불러올 수 있는 어떤 조치가 필요할 것이고, 아마 Output 데이터는 내부적으로 ‘캐글 데이터셋’과 비슷한 형태로 저장 및 관리되고 있을 가능성이 높습니다. 앞서 1.3.2절에서 Output 경로인 “/kaggle/working”에는 파일을 최대 20GB 저장할 수 있다고 설명했습니다. Output 용량에 제한을 둔 이유도 캐글 데이터셋으로 유지 및 관리해야 하기에 비용 절감을 위한 조치라고 추측할 수 있습니다.

다음으로 다른 외부 저장소(Github, Remote Files, Google Cloud Storage(GCS))에 위치한 데이터로 데이터셋을 만드는 방법입니다.

(3) Remote Files

데이터셋 파일을 다운로드할 수 있는 URL을 통해 캐글 데이터셋을 생성하는 방식입니다. 일반적으로는 다운로드 URL이 주어질 때 이를 로컬에 다운로드한 다음 다시 캐글에 업로드해야 하지만, 그렇게 할 필요 없이 다운로드 URL만 등록하면 캐글 데이터셋 서버가 이를 직접 다운로드하여 곧바로 데이터셋으로 생성합니다. 이 방식은 URL로 주어진 데이터가 비교적 큰 용량이거나, 현재 자신이 사용하는 네트워크 속도가 느린 경우 유용합니다. 다운로드 URL은 실행 시 파일 다운로드로 연결되는 URL이면 대부분 사용할 수 있습니다. 해당 URL을 캐글 데이터셋 생성 창에 넣으면 등록 가능 여부를 알려줍니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.