캐글 메달리스트가 알려주는 캐글 노하우: 1.1.2 컴페티션 선택

첫째, 점수 계산에 사용될 테스트 셋을 참가자에게 공개하지 않고 컴페티션을 진행할 수 있습니다. 정답 파일을 만들기 위해서는 테스트 셋에 대한 예측이 필요하기 때문에 일반적으로는 정답을 제외한 테스트 셋을 참가자들에게 공개합니다. 다만, 이 과정에서 테스트 셋의 정보를 모델 생성에 활용하거나 테스트 셋의 분포를 미리 파악해 테스트 셋에 적합한 솔루션을 만들 수 있습니다. 이러면 테스트 셋에 대한 점수는 높게 나올지 몰라도 일반화(Generalization) 측면에서 좋지 못한 솔루션이 만들어질 수 있으므로 결코 좋은 솔루션이라고 볼 수 없습니다. 이런 일을 방지하기 위해 Code Competition에서는 서브미션 제출 시 내부 컴퓨터에서 점수를 계산할 때 테스트 셋을 비공개 데이터로 교체합니다. 이렇게 하면 테스트 셋을 공개하지 않고도 테스트 셋에 대한 예측을 만들 수 있습니다.

둘째, 제출한 코드의 전체 수행 시간에 제한을 둘 수 있습니다. 문제의 정답을 잘 맞히는 것도 중요하지만, 실제 환경에 적용하기 위해서는 솔루션의 수행 시간 효율도 매우 중요합니다. Simple Competition은 단지 정답 파일만 제출하면 되므로 그 정답 파일이 만들어지기까지 전체 예측 시간이 얼마가 소요되든지 상관이 없습니다. 반면, Code Competition은 제출한 노트북의 런타임에 제한을 걸 수 있으며, 만약 제출한 노트북의 실행 시간이 제한 시간을 넘긴다면 그 제출은 서브미션으로 인정되지 않습니다. 참고로 제한 시간은 컴페티션마다 다를 수 있으므로 각 컴페티션 페이지의 Overview > Code Requirements에 있는 정보를 확인해야 합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.