더북(TheBook)

증거 포함하기

우리가 더 많은 증거를 얻을수록, 우리의 사전 믿음은 새로운 증거에 의해 ‘희석된다’. 이는 당연한 일이다. 예를 들어 여러분의 사전 믿음이 “오늘 태양이 폭발하리라 예상한다”와 같은 황당한 것이라면 여러분은 매일 틀릴 것이고, 어떤 추론이 나와서 자신의 믿음을 정정하거나 최소한 믿음이 잘 조정되기를 바랄 것이다. 베이지안 추론은 이 믿음을 수정할 것이다.

우리가 가진 증거의 개수를 N이라고 해보자. N → ∞라고 말할 정도로 증거를 많이 모았다면 베이지안의 결과는 (종종) 빈도주의자의 결과와 일치한다. 그러므로 N이 커질수록 통계적 추론은 어느 정도 객관적이다. 반면, N이 작아질수록 추론은 훨씬 더 불안정해진다. 빈도주의자의 추정은 변동성이 크고, 신뢰 구간이 더 넓기 때문이다. 베이지안 분석은 이런 점에서 뛰어나다. 사전확률을 도입하고 확률(추정치 대신)을 돌려줌으로써 우리는 불확실성을 유지한다. 그 불확실성은 N이 작은 경우 데이터셋에 대한 불안정한 통계적 추론을 반영한다.

N이 충분히 큰 경우에는 두 방법이 비슷한 추론을 제공하므로 둘 사이에 큰 차이가 없다고 생각하고, 계산이 단순한 빈도주의 방법으로 마음이 기울지도 모른다. 이런 상황에서 결정을 내리기 전에 앤드류 젤먼(Andrew Gelman, 2005)1의 다음 말을 각자 생각해보기 바란다.

 

표본 크기는 결코 크지 않다. 만일 N이 충분한 추정을 얻기에 부족하다면 더 많은 데이터(또는 더 많은 가정)를 확보해야 한다. 그러나 일단 N이 ‘충분히 크다’면 데이터를 나눠 더 많은 것(가령 여론조사에서 전국적으로 훌륭한 추정을 얻었다면 남과 여, 남부와 북부, 여러 연령대 그룹 등으로 나눠 추정할 수 있다)을 얻을 수 있다. N은 결코 충분하지 않다. 만약 충분하다 하더라도 여러분은 이미 더 많은 데이터가 필요한 다음 문제에 직면하기 때문이다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.