더북(TheBook)

앙상블

앞서 선택한 여러 학습된 모델에 테스트 데이터를 넣고 출력된 결과를 앙상블하여 최종 결과에 반영합니다. 이때 앙상블하는 방법은 여러 가지가 있으나, 저희 팀은 성능이 좋은 모델이 더 높은 가중치를 가지도록 설정하고 싶었습니다. 먼저 각각의 학습된 모델을 단일 모델로 제출해서 리더보드 점수를 측정합니다. 이 리더보드 점수순으로 가중치를 임의로 조절하여 설정했습니다.

또한, 각각의 출력 결과를 제곱하여 사용했습니다. 모델을 하나만 사용하는 경우, 수치를 제곱한다고 해서 그 결과가 바뀌지는 않지만 앙상블의 경우에는 조금 다릅니다. 각각의 모델은 데이터를 입력으로 넣으면 악성(Toxicity)의 정도를 [0, 1] 사이의 확률로 출력합니다. 이 [0, 1] 사이의 값을 제곱하면 중간값인 0.5에 가까워질수록 제곱하기 이전 값과 비교해서 상대적으로 값의 비중이 줄어듭니다.17 따라서 애매하게 확률을 출력하는 경우에 대해 조금 규제를 준 것이라고 보면 됩니다. 실제 실험 결과, 이를 적용했을 때 리더보드 점수가 약간 향상됐습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.