단, 여기서 주의할 점은 캐글 데이터셋으로 만들지 않고 TPU 학습 노트북의 Output을 곧바로 ‘Add Data’로 추가하는 방법을 사용하는 경우, 이 노트북은 Code Competition의 서브미션 노트북으로 활용할 수 없다는 것입니다.
Code Competition의 서브미션 노트북은 반드시 인터넷 접근을 해제해야 하고, CPU 또는 GPU로 실행돼야 합니다. CPU 환경으로 실행하면 생각보다 추론 시간이 오래 걸리므로 웬만하면 GPU로 실행하는 것을 추천합니다(약 12분 소요). 뿐만 아니라, 일반적으로 Code Competition을 제출하면 새로운 테스트 셋으로 데이터가 바뀌어 계산되기 때문에 미리 전처리해두거나, 미리 만들어둔 테스트 TFRecord를 사용할 수 없습니다.
그러므로 컴페티션 테스트 셋을 그대로 가져와 전처리 및 토큰화 과정을 다시 진행해야 합니다. 앞서 TFRecord 데이터셋을 추가한 이유는 훈련 셋에 사용한 토큰화 정보가 필요하기 때문입니다. 따라서 컴페티션 데이터셋의 test.csv를 가져와 똑같이 전처리와 토큰화를 진행하고 텐서플로 데이터셋으로 생성합니다. 이때 추론 과정에는 dataset.repeat()과 dataset.shuffle()을 넣지 않습니다. 테스트 전체를 한 번만 하면 되고 섞이지 않아야 하기 때문입니다.