더북(TheBook)

5.4.3 점수

점수 또는 점수 함수(scoring function)라는 용어가 있습니다. 점수 함수는 손실을 정량화한 값의 일종으로, 클수록 좋습니다. 손실과 점수가 서로 역수 관계가 되도록 설정할 수도 있습니다. 하나가 오르면 다른 하나가 내려가도록 말이지요. 우리는 일반적으로 높은 점수와 낮은 손실을 원합니다. 둘 중 어느 것을 사용해야 할까요? 이는 어떤 척도를 사용하는지에 달렸습니다. 점수와 손실은 본질적으로는 같은 것을 의미합니다. 다만 방향이 다릅니다. 손실 또는 손실 함수는 최소화해야 하는 반면, 점수나 점수 함수는 최대화해야 하지요. 요약하자면 이렇습니다.

점수: 높을수록 좋습니다. 최대화합니다.

손실, 오차와 비용: 낮을수록 좋습니다. 최소화합니다.

 

두 개의 모델을 가지고 있다면 이들의 비용을 서로 비교하면 됩니다. 그런데 모델 개수가 더 많다면 어떻게 해야 할까요? 모든 조합을 만들거나, 똑똑한 방식으로 검색하거나, 수학적인 방법을 이용해서 가장 비용이 적은 모델을 찾아내야 합니다. 이것은 4.4절에서 살펴보았습니다. 물론 틀렸을 수도 있습니다. 후보에 들지 못했지만 더 낮은 비용을 가진 모델이 있을 수 있지요. 또는 비용이 실제 환경에서의 모델 성능을 검증하는 가장 이상적인 방법이 아닐 수도 있습니다. 복잡도 척도나 복잡도에 대한 상충 관계가 지나치게 높거나 낮을 수도 있지요. 우리가 “최고의 모델과 하이퍼파라미터를 선택했어.”라고 이야기하는 순간에도 배후에서 이 모든 요소가 작동하고 있을지도 모릅니다. 어쨌든 우리는 주어진 조건하에서 최선을 다해 최고의 모델을 선택해야 합니다.

좋은 모델 하이퍼파라미터를 고르는 실용적인 방법은 11.2절에서 더 알아보겠습니다. sklearn과 같은 최신 머신 러닝 소프트웨어를 이용하면 수많은 모델과 하이퍼파라미터 조합을 매우 쉽게 실험해 볼 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.