더북(TheBook)

7.2.3 데이터 소개

데이터셋을 들여다보기에 앞서, 주최 측이 데이터 파일과 함께 제공한 설명을 찬찬히 읽어보는 것이 중요합니다. 이 설명에는 주어진 데이터가 어떤 파일로 구성되어 있고, 파일 형식은 무엇인지 표면적으로 드러나는 정보는 물론이고, 파일이 담고 있는 의미, 파일을 구성하는 피처(Feature)가 각각 어떠한 의미를 지니는지, 그 수치의 의미가 무엇인지 등의 의미적인 정보와 결과물을 제출할 때 사용하는 제출(Submission)에 대한 정보가 들어 있습니다. 주최 측이 생각하는 데이터의 전반적인 내용이기 때문에 이 내용을 반드시 먼저 정독하는 것이 좋습니다.

이번 대회에 주어진 데이터셋은 Civil Comments3라는 온라인 논평 플랫폼에서 발생한 약 200만 개의 댓글 데이터를 가지고 데이터의 악성(Toxcity)을 직접 레이블하여 만들었습니다. Civil Comments는 크라우드 소싱을 활용한 커뮤니티 관리 툴을 이용해, 사람들이 올린 댓글을 토대로 소셜 네트워크 속 사람들의 반응(댓글, 평가 등)을 모아 놓은 플랫폼입니다(현재는 서비스되지 않습니다).

데이터는 기본적으로 댓글의 본문인 comment_text와 댓글의 악성 정도를 수치로 나타낸 target(타깃, 정답)이 있습니다. 거기다 악성의 타입을 6가지 속성으로 나누어서 각 속성별 수치를 나타낸 subtype 타깃이 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.