7.2.2 평가 지표
이 대회는 예측의 편향(Bias)을 잘 구분하기 위해 특정 정체성에 치우쳐 잘못 예측한 것들에 페널티를 줘야 했기 때문에, 조금 특별한 평가 방법을 사용했습니다. 다른 대회와는 다르게 특이하고 복잡한 구조로 만들어져 있으므로 유심히 살펴볼 필요가 있습니다.
측정 항목은 크게 두 가지입니다.
• Overall AUC: 모델의 악성 여부 예측에 대한 일반적인 AUC1 점수를 측정합니다. 다른 대회와 비슷한 평가 항목으로 모델의 전체 성능을 평가합니다.
• Bias AUC: 다음 세 가지 세부 항목의 기하 평균으로 계산됩니다.
▪︎ Subgroup AUC
▪︎ BPSN(Background Positive Subgroup Negative)
▪︎ BNSP(Background Negative Subgroup Positive)
이 세부 항목을 이해하기 위해서는 먼저 Subgroup과 Background의 개념이 무엇을 뜻하는지 알아야 합니다. 주최 측은 데이터에서 악성과 관련될 소지가 있는 정체성의 그룹을 추려냈습니다. 추려낸 정체성과 관련한 단어 및 언급이 있는 텍스트를 Subgroup으로 정의합니다. 그 외 정체성과 관련한 단어 및 언급을 찾아볼 수 없는 텍스트를 모두 Background라고 정의합니다.