뿐만 아니라 그림 7-4와 같이 주어진 텍스트에서 대상의 정체성(Identity)이 언급된 피처도 있습니다. 정체성에 대한 정보는 대회 페이지의 Data에 더 자세한 설명이 예시와 함께 기록되어 있습니다. 단, 한 가지 유의해야 할 점은 정체성에 관한 열(Column)은 총 24개 피처로 이루어져 있지만 실제 테스트 데이터에 분포하는 것은 9개이고, 테스트 데이터 중 약 5백 개 행만이 실제 점수 계산에 이용된다는 점입니다. 이 또한 Data 페이지에 잘 설명되어 있습니다.
마지막으로 각 텍스트별로 메타데이터가 있습니다. 메타데이터는 생성일자, 평점, 댓글이 달렸던 원문 ID 등과 같이 데이터의 주제와 관련한 의미를 담고 있다기보다는, 데이터로서의 속성을 나타낸 것이라고 생각하면 됩니다. 이 솔루션에서 해당 피처를 다루지는 않지만, 혹여 생각나는 아이디어가 있다면 분석에 한번 활용해보는 것도 좋습니다.
• train.csv: 고유 아이디와 댓글 텍스트, 타깃 레이블, 갖가지 서브 타입으로 이루어진 훈련(Training)을 위한 데이터
• test.csv: 고유 아이디와 타깃을 예측해야 할 텍스트 데이터로만 이루어진 테스트 셋
• sample_submission.csv: 이 대회의 답안지 역할