더북(TheBook)

모델링을 시작하기 앞서 여러분은 그림 1-5를 보고 무엇을 알 수 있는가? 그림 1-5에 주어진 시간 동안 행동의 변화가 일어났다고 말할 수 있는가?

모델링을 어떻게 시작하면 좋을까? 자, 앞에서 본 것처럼 푸아송 확률변수는 이런 종류의 개수 데이터에 매우 적합한 모델이다. 특정 일자 i의 메시지 개수는 Ci로 표시된다.

31m-1

그러나 우리는 모수 λ의 값이 실제로 무엇인지 모른다. 그림 1-5를 보면 비율은 관측기간 마지막에 높아 보인다. 이는 관측기간 중 어느 시점에서 λ가 증가한다는 의미와 같다(높은 λ 값이 더 큰 결과에 더 많은 확률을 부여한다는 점을 기억하자. 즉, 어느 특정한 날 메시지를 많이 받을 확률이 높다).

이런 관측을 수학적으로 어떻게 나타낼 수 있을까? 관측기간 중 어느 날(τ라고 부르자) 모수 λ가 갑자기 더 높은 값으로 확 뛰어 오른다고 가정하자. 그러면 우리는 모수 λ를 두 개 가진다. 하나는 τ 이전, 또 하나는 나머지 관측기간 동안의 것이다. 논문이나 학술지에서는 이런 급작스러운 변화를 변환점(switchpoint)이라고 한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.