1.4.3 데이터셋 활용
캐글 활동에 숙련된 캐글러는 데이터셋을 다양한 곳에 효율적으로 활용합니다. 어떤 방법이 있는지 캐글러가 데이터셋을 활용하는 방식과 팁에 대해 간단히 살펴보겠습니다.
공개 데이터 공유
세상에는 정말 많은 데이터가 존재합니다. 그중 주위에서 간단히 수집할 수 있고, 자유롭게 사용할 수 있는 데이터들도 굉장히 많습니다. 데이터를 분석하고 답을 찾는 과정이 반드시 컴페티션 형태로만 수행되어야 할 이유는 없습니다. 컴페티션은 만들어지기까지 꽤 복잡한 절차가 필요하지만, 누구나 주위에서 관찰할 수 있고 쉽게 관심을 가질 수 있는 주제로 만들어진 데이터셋은 만드는 데 따로 절차가 필요하지 않고 컴페티션보다 접근성이 훨씬 뛰어납니다. 캐글에서는 캐글러들이 직접 데이터셋을 구성하여 공유하도록 장려하고 있습니다. 데이터셋마다 캐글 코드와 디스커션을 연결하여 다양한 콘텐츠가 만들어지고 원활한 소통이 이루어지도록 지원하고 있습니다.
▲ 그림 1-39 캐글에 공개된 데이터셋