더북(TheBook)

4.5.1 평균 제곱근 오차

회귀 모델의 예측 성능을 어떻게 정량화할 수 있을까요? 좋은 직선을 찾는 데 이용한 척도와 거의 비슷한 수식을 사용할 것입니다. 기본적으로 오차 제곱의 평균값을 구합니다. 오차인 +3과 -3을 단순히 더하면 서로 상쇄되어 실제로는 6만큼 오차가 발생했음에도 완벽한 직선으로 평가됩니다. 이 두 오차를 각각 제곱한 후 더하면 총 18의 오차가 됩니다. 이 값에 평균을 취하면 오차 제곱 평균값 9를 얻을 수 있습니다. 여기에서 한 단계 더 나아가 이 값에 제곱근을 취하면 오차의 개별 값들과 같은 크기의 값을 얻을 수 있습니다. 이 값을 평균 제곱근 오차(Root Mean Squared Error) 혹은 줄여서 RMSE라고 합니다. 이 예시에서 RMSE는 3입니다. 개별 예측 값의 오차와 정확히 일치하네요.

어디서 보았는지 기억은 잘 나지 않지만 오래된 농담이 하나 생각납니다.

2명의 통계학자가 사냥을 나갔는데 한 사람이 오리를 발견했습니다. 그는 오리를 조준하고 총을 쏘았지만 총알은 6인치 높게 빗나가고 말았습니다. 두 번째 통계학자도 오리를 향해 발포했지만 총알은 6인치 낮게 빗나갔습니다. 두 통계학자는 하이파이브를 하며 외칩니다. “잡았다!”

분위기가 싸해졌네요. 하지만 이것이 평균을 다룰 때 맞닥뜨리는 근본적인 상충 관계입니다. 그나저나 책을 쓰려고 오리를 진짜로 쏜 것은 아니에요!

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.