추정 및 검정의 예

    ‘7.7.2 독립 이표본 평균’ 절에서 살펴본 sleep 데이터를 다시 사용하자. 그룹별 평균을 구하는 방법도 해당 절을 참고하기 바란다.

    sleep 데이터는 다음과 같이 수면제 1(group == 1)과 수면제 2(group == 2) 각각에 대해 환자 ID가 오름차순으로 정렬되어 있다. 따라서 수면제별로 데이터를 잘라냈을 때 수면제 1과 수면제 2의 환자가 동일한 순서로 오게 된다.

    > sleep
       extra group ID
    1    0.7     1  1
    2   -1.6     1  2
    3   -0.2     1  3
    4   -1.2     1  4
    5   -0.1     1  5
    6    3.4     1  6
    7    3.7     1  7
    8    0.8     1  8
    9    0.0     1  9
    10   2.0     1 10
    11   1.9     2  1
    12   0.8     2  2
    13   1.1     2  3
    14   0.1     2  4
    15  -0.1     2  5
    16   4.4     2  6
    17   5.5     2  7
    18   1.6     2  8
    19   4.6     2  9
    20   3.4     2 10
    

    t.test( )에 paired=TRUE를 지정하고 짝지은 이표본 검정을 수행해보자. 앞서 설명한 것처럼 그룹별로 데이터를 잘라냈을 때 1, 2, 3, …, 10 환자 순서로 t.test( )의 인자로 넘겨지고 있다.

    > with(sleep, t.test(extra[group==1], extra[group==2], paired=TRUE))
    
       Paired t-test
    
    data:  extra[group == 1] and extra[group == 2]
    t = -4.0621, df = 9, p-value = 0.002833
    alternative hypothesis: true difference in means is not equal to 0
    95 percent confidence interval:
     -2.4598858 -0.7001142
    sample estimates:
    mean of the differences
                      -1.58
    

    p-value < 0.05이므로 귀무가설 ‘H0: 모평균의 차이가 0이다’를 기각한다. 따라서 두 수면제의 수면 시간 증가 정도가 다르다고 결론을 내린다.

    이 결론은 sleep 데이터를 독립 이표본으로 본 경우와 다른 결과다. 독립 이표본의 경우에는 신뢰 구간이 (-3.363874, 0.203874)로 구간 안에 0을 가까스로 포함한 형태였다. 짝지은 이표본 검정의 경우 독립 이표본 검정에 비해 추정의 정확도가 높아10 신뢰 구간이 좁아지면서 신뢰 구간에서 0이 빠지게 되었다. 그 결과 수면제 간 수면 시간 연장 정도에 차이가 존재함을 보이게 되었다.


    10 추정의 정확도가 높다는 말은 추정치의 분산이 작다는 뜻이다. 분산은 데이터의 퍼짐 정도를 측정하므로 분산이 작다면 95% 신뢰 구간 역시 좁아지게 된다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.