더북(TheBook)

1.4 데이터셋

데이터 사이언스에서 데이터가 중요하다는 사실은 두말하면 입 아플 정도로 당연한 이야기입니다. 캐글은 지금까지 많은 컴페티션을 치러오면서 다양한 데이터셋(Dataset)을 구축해왔으며, 캐글러라면 누구나 이 데이터셋을 가져와 분석 및 공부에 활용할 수 있습니다. 또한, 라이선스 룰을 위반하지 않는 데이터에 대해 캐글러가 직접 캐글 데이터셋을 구축한 다음 다른 사람에게 공유할 수도 있습니다. 더 나아가, 숙련된 캐글러는 단지 데이터를 저장하기 위한 용도뿐 아니라 조금 특별한 목적으로 데이터셋을 활용하기도 합니다.

이 절에서는 캐글 데이터셋의 특징과 캐글러가 데이터셋을 200% 활용하는 방법에 대해 다뤄보겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.