데이터 전처리
최근 개최되는 컴페티션에 주어지는 데이터셋을 보면 갈수록 크기가 커지고 형태가 새로워지고 있습니다. 일반적으로 쓰는 형태가 아닌 데이터는 사용하기 전에 사용 가능한 형태로 전처리해줘야 합니다. 하지만 데이터 크기가 크고 수가 많은 경우, 전처리 작업만으로도 상당히 많은 시간을 사용해야 합니다. 이럴 때 데이터셋을 미리 전처리해서 데이터셋으로 저장해두면 무척 편리합니다.
컴페티션에 참가하면 높은 점수를 위해 실험을 많이 할텐데, 미리 데이터셋을 전처리해두면 매번 동일한 전처리를 반복하며 낭비하는 시간을 절약할 수 있습니다. 무엇보다 시간 제한이 있는 Accelerator로 머신러닝 모델을 학습시킬 때 활용하면 좋습니다. 또한, TPU를 사용할 때는 TFRecord 포맷을 사용하는 것을 권장하는데, 사용할 데이터셋을 TFRecord로 미리 변환해뒀다가 TPU 학습에 사용하면 됩니다.12
단, Code Competition인 경우 한 가지 유의할 점이 있습니다. 모델을 학습할 때는 위와 같은 방법으로 해도 상관없으나, 서브미션을 만들 때는 테스트 셋이 공개되지 않기 때문에 테스트 셋을 미리 전처리해두는 방법을 사용할 수 없습니다. 머신러닝 모델 학습 때만 시간 절약을 위해 이렇게 사용하고, 서브미션 코드에는 처음부터 데이터를 읽어 전처리하는 과정을 모두 추가해야 합니다.