디스커션 댓글을 읽어보면 Limerobot 님은 과거에 진행됐던 Taxi Trajectory Prediction이라는 컴페티션 솔루션에서 영감을 받았다고 합니다. Data Description을 보면, 어떤 방법으로 텍스트를 라벨링했는지 나와 있습니다. 총 10명의 사람이 주어진 텍스트의 악성의 정도를 총 4단계의 범주로 평가한 뒤 이를 합산하여 0~1의 값으로 만든 것입니다. 앞서 EDA에서 확인했던 정답 분포 그래프를 보면 깔끔하게 연속적이라기보다는 유독 특정 값에 분포가 몰려 있는 것을 볼 수 있습니다(그림 7-6 참고). 위와 같은 라벨링 방식에 따라 발생한 현상으로 보이며, 이 솔루션과 같이 서브 클래스 관점으로 생각해볼 수도 있겠다는 생각이 들었습니다.