더북(TheBook)

(4) Github

Github 리포지터리 주소를 등록해두면 리포지터리 안에 있는 데이터를 추가할 수 있습니다. 다만 Github가 본래 코드 버전 관리와 협업을 위한 용도로 만들어진 것이기 때문에, 애당초 데이터셋의 용도로 만들어진 리포지터리는 그렇게 많지 않습니다. 또한, Github는 효율적인 버전 관리를 위해 기본적으로 파일 용량에 제한을 두기 때문에 다양한 데이터를 다룰 수 없다는 단점이 있습니다.

(5) Google Cloud Storage

구글 클라우드 플랫폼의 클라우드 스토리지(GCS) 경로로 데이터셋을 만들 수 있습니다. 사실 캐글 플랫폼에서 사용하는 서버와 저장소는 구글 클라우드 플랫폼으로 이루어져 있습니다. 같은 클라우드 환경을 사용하기 때문에 구글 클라우드 경로를 데이터셋으로 만드는 기능을 제공합니다. 단, 캐글 플랫폼이 직접 데이터를 다운로드할 수 있어야 하므로 GCS의 파일의 권한은 공개(Public) 상태여야 합니다. 이미 공개된 데이터의 GCS 경로를 사용하는 것은 상관없지만, 만약 자신이 관리하는 구글 클라우드 스토리지의 데이터를 추가하고 싶다면 버킷의 권한 설정을 공개로 변경해야 합니다.10 또한, 해당 버킷은 인터넷에 공개로 오픈되므로 보안상 문제가 없는지 확인해야 합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.