더북(TheBook)

1.4.3 해석

베이지안 방법론은 분포를 반환한다고 했다. 따라서 우리는 미지의 λ와 τ를 표현할 분포를 가지게 되었다. 지금까지 얻은 것은 무엇인가? 우리는 우리의 추정에서 불확실성을 볼 수 있다. 분포가 넓다는 것은 우리의 사후 믿음이 확실하지 않다는 의미다. 또한, 타당한 모수가 무엇인지 알 수 있다. 그림 1-6을 보면 λ1은 대략 20, λ2는 대략 15다. 두 λ의 사후확률분포가 명확하게 구분되며, 사용자의 문자 습관에 정말로 변화가 있었을 가능성이 크다는 것을 나타낸다(더 자세한 내용은 1.6절 부록을 참고하라).

다르게 관측할 수도 있나? 여러분이 원래 데이터를 다시 검토해도 이 결과가 합당한가?

또한, 이들 변수에 대한 사전확률분포가 지수적이라 해도 λ에 대한 사후확률분포가 지수분포처럼 보이지 않는다는 점을 명심하자. 사실 사후확률분포는 우리가 원래 모델에서 본 어떤 형태와도 같지 않다. 그러나 괜찮다. 이것이 컴퓨팅적 관점으로 볼 때 얻는 장점 중 하나다. 만일 우리가 수학적 방법으로 분석했다면 분석이 불가능한(그리고 지저분한) 분포에 갇혔을 것이다. 컴퓨팅적인 방법을 사용하다 보면 수학적인 도출/유도에는 무관심하게 된다.

또한, 우리가 한 분석은 τ의 분포를 반환했다. 그 사후확률분포는 이산확률변수이므로 나머지 두 개와 다르다. 그래서 구간에 확률을 부여하지 않는다. 우리는 45일 부근에서 사용자의 행동이 바뀔 확률이 50%였음을 알 수 있다. 아무 변화가 없거나 시간에 따라 점진적으로 변한다면 τ의 사후확률분포는 더욱 넓게 퍼져 있을 것이고, 많은 날이 τ의 후보가 될 것이다. 반면, 실제 결과에서는 3~4일이 잠재적인 변환점이라고 보는 것이 타당해 보인다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.