• Subgroup AUC: Subgroup에 속하는 텍스트들만 뽑은 뒤 AUC를 계산한 것을 말합니다. 다시 말해, 정체성에 관한 단어가 언급되더라도 악성을 잘 구분할 수 있는지를 판단하는 것입니다.
BPSN과 BNSP는 텍스트 내 정체성에 대한 언급이 악성에 어떤 방향으로 영향을 주는지 알아보기 위한 지표입니다.
• BPSN: 정체성 언급이 없는(Backgroud) 데이터에 악성(Positive)인 경우와 정체성 언급이 있는(Subgroup) 데이터에 악성이 아닌(Negative) 경우를 모아 이에 대한 AUC를 계산하는 것입니다. 이 수치가 낮다는 것은, 정체성을 의미하는 단어의 포함이 악성을 높이는 데 영향이 매우 크다는 것을 의미합니다.
• BNSP: 정체성 언급이 없는(Backgroud) 데이터에 악성이 아닌(Negative) 경우와 정체성 언급이 있는(Subgroup) 데이터에 악성(Positive)인 경우를 모아 이에 대한 AUC를 계산하는 것입니다. 이 수치가 낮다는 것은, 정체성의 포함이 오히려 악성을 떨어트리는 데 영향을 준다는 것을 의미합니다(잘 이해가 안 된다면 그림 7-2를 참고하기 바랍니다).
최종 점수는 Overall AUC와 Bias AUC의 가중합으로 계산됩니다. 총 4종류의 AUC가 각각 0.25씩 곱해지고, 이를 모두 합산하는 방식입니다. 꽤 복잡한 방식으로 계산되기 때문에 한 번에 이해하기 쉽지 않을 것입니다. 주최 측에서 관련 논문과 평가 방식에 대한 샘플 코드를 대회 페이지의 Overview > Evaluation에 추가해 놓았으니 참고하면 좋겠습니다.2