더북(TheBook)

1.4.1 캐글 데이터셋

캐글 데이터셋(Kaggle Dataset)은 크게 두 종류로 나눌 수 있습니다.

첫째, 모두가 잘 알고 있는 컴페티션을 위한 데이터셋입니다.

둘째, 캐글러가 직접 만들고 업로드한 데이터셋입니다.

캐글러가 직접 만든 데이터셋은 캐글 메인 홈페이지의 ‘Datasets’에 모여 있으며 컴페티션에 비해 다양하고 재미있는 데이터들로 이루어져 있습니다. 여기에 공개된 데이터셋으로 마음대로 분석해보거나, 예측하고 싶은 변수를 정하고 이 변수를 예측하기 위한 모델을 만들어볼 수 있습니다.

캐글 데이터셋은 캐글 노트북에 연결해 사용하면 편리합니다. 데이터 분석을 하기 위해서는 일단 데이터를 다운로드해야 합니다. 자신이 소유한 컴퓨터라면 디스크에 한 번만 다운로드하면 되지만, 캐글 노트북은 세션이 만료되면 초기화되는 클라우드 컴퓨터이기 때문에 사용할 때마다 다운로드해야 합니다. 설상가상으로 데이터 크기가 큰 경우라면 다운로드에 시간이 많이 걸릴 것이므로 매우 불편합니다. 하지만 캐글 데이터셋은 용량이 큰 데이터라도 굉장히 빠른 속도로 캐글 노트북에 연결해 사용할 수 있습니다. 필요한 경우 다른 데이터셋도 원하는 대로 추가할 수 있어 편리합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.