더북(TheBook)

2.5 부록

 

 

적합한 모델에서 결함의 기댓값(좀 더 일반적으로는 말하자면 어떤 부류가 발생하는 기대 횟수)을 어떻게 계산할 수 있을까? 관측치 N개를 가지고 있다고 가정하자. 각 관측치의 성격은 서로 다르다(우리 예제에서는 기온). 우리는 각각의 관측치에 대해서 한 부류(우리 예제에서는 결함)의 확률을 만들어낼 수 있다.

어떤 모델 하에 각각의 관측치에 i라는 인덱스를 붙여 베르누이 확률변수 Bi로 생각할 수 있다. 즉, pi의 확률로 Bi = 1(우리가 맞다)이고, 1 - pi의 확률로 Bi = 0(우리가 틀리다)이다. 각각의 pi는 관측치를 적합 모델에 입력하고 확률로 얻은 것이다. 주어진 모델 하에서 이 베르누이 확률변수의 합계는 해당 부류 내 발생한 사건의 합계다. 예를 들어 만일 우리가 시스템적으로 각각의 pi를 높은 값으로 편향되도록 했다면 합계는 지나치게 높을 것이고 실제 관측치와 동떨어지게 된다(단, 어떤 부류의 총합은 실제로 낮을 수 있다).

결함의 기댓값은 합계의 기댓값이다.

95m-1

베르누이 기댓값은 확률과 같으므로 1이다. 그래서 분리도표를 만들기 위해 우리는 확률의 합계를 계산하고, 그 숫자를 Y축에 둔다.

교차검정(cross-validation)에서 이 단계는 검증 데이터를 평가하기 전에 이루어진다. 그리고 여러 모델의 적합도를 비교하기 위한 훈련 과정의 일부가 될 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.