더북(TheBook)

컴페티션에 참가하다 보면 자연스레 비공개로 만들어지는 데이터셋이 많아집니다. 가능하다면 무한정으로 데이터셋을 만들면 좋겠지만 아쉽게도 그럴 수는 없습니다. 계정당 생성할 수 있는 데이터셋의 총 용량은 공개, 비공개 각각 100GB 정도로 제한되어 있습니다. 그렇기 때문에 비공개 데이터셋이 제한량(100GB)에 가까워졌다면 이전에 만든 데이터셋을 삭제하거나 공개로 전환해야 합니다. 현재 자신의 계정에 남은 제한량은 데이터셋 생성 창의 설정(톱니바퀴 아이콘)에서 확인할 수 있습니다.

Note ≣ | 동일한 데이터 업로드 시 에러

캐글 플랫폼은 데이터셋을 업로드할 때 혹시라도 완전히 똑같은 데이터가 이미 공개되어 있지 않은지 중복 검사를 진행합니다. 만약 어떤 파일이 다른 캐글러에 의해 이미 공개 데이터셋으로 만들어졌다면 해당 파일은 데이터셋으로 만들 수 없습니다. 이럴 때는 중복 파일만 제외한 채 데이터셋을 생성한 뒤, 캐글 노트북 화면에서 이미 만들어져 있는 그 데이터셋을 추가해 사용하는 방법이 있습니다. 또 다른 방법으로 조금 요령을 피워보면 해당 파일을 압축 파일로 만들면 중복되더라도 업로드할 수 있습니다.

언뜻 보기에는 다소 불편하지만, 혹시라도 용량이 큰 데이터셋을 만들어야 할 때 이미 누군가가 만들어 놓은 데이터가 있다면 그 데이터를 노트북에 추가해 사용할 수 있으므로 새로 만들지 않아도 됩니다. 이 경우 내 데이터셋 생성 할당량을 절약할 수 있다는 장점이 있습니다. 데이터셋을 생성하기 전에, 혹시라도 누군가가 올려 놓은 데이터가 있는지 먼저 체크해볼 것을 권장합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.