더북(TheBook)

4.2.1 중앙 측정: 중앙값과 평균

평균 혹은 산술 평균이라는 개념은 익숙할 것입니다. 평균 대신 수학이 조금 덜 들어간 개념부터 먼저 알아볼게요. 바로 중앙값입니다. 중앙값은 어떤 숫자들을 줄 세웠을 때 중앙에 위치한 값입니다. 예를 들어 [1, 8, 10]에서 중앙값은 8입니다. 이 숫자를 기준으로 위아래에 숫자가 하나씩 있습니다. 숫자 그룹 내에서 중앙값은 자신을 기준으로 위와 아래에 동일한 개수의 숫자를 갖게 됩니다. 다른 말로 하면, 모든 숫자에 동일한 가중치가 부여되면 그림 4-1과 같이 중앙값에 중심이 잡히게 됩니다. 우측에 15나 40처럼 큰 숫자가 위치하더라도 중앙값은 변하지 않게 되지요.

[1, 2, 3, 4]처럼 개수가 짝수라면 어떻게 해야 할까요? 이 경우에는 보통 가운데 두 값, 즉 2와 3의 평균인 2.5가 중앙값이 됩니다. 두 숫자의 위아래에도 같은 개수의 숫자가 있는 것이 보이나요?

중앙값을 요약 통계량으로 사용하면 아주 멋진 효과를 얻을 수 있습니다. 정렬된 데이터의 맨 첫 혹은 맨 마지막 숫자에 변형을 가하더라도 중앙값은 변하지 않습니다. 예를 들어 제 데이터 기록기가 중앙값에서 멀리 떨어진 값을 측정하는 데 잡음이 끼어 [1, 8, 10] 대신 [2, 8, 11]을 얻었다고 해도 중앙값은 그대로입니다! 측정한 값이 달라져도 흔들림 없는 것을 견실성(robustness)이라고 합니다. 중앙값은 중간(center)을 측정하는 견실한 지표입니다.

이번에는 숫자 위치가 아닌 실제 값을 사용하는 시나리오를 알아볼게요. 중간을 재는 또 다른 익숙한 방법은 평균(mean)입니다. 중앙값이 왼쪽과 오른쪽에 있는 값들의 개수 균형이라면, 평균은 왼쪽과 오른쪽까지의 총 거리 균형입니다. 그래서 평균은 sum(distance(s, mean) for s in smaller)sum(distance(b, mean) for b in bigger)와 같은 경우입니다. 이 조건을 만족하는 유일한 값은 mean = sum(d) / len(d)이며, 수식으로 표현하면 mean = = 가 됩니다. 그림 4-1에서 15를 40으로 바꾸면 균형인 평균값이 달라집니다. 전체 숫자의 합이 증가하기 때문에 평균값 역시 증가합니다.

 

▲ 그림4-1 평균과 중앙값의 중심 비교

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.