추정 및 검정의 예
‘7.7.2 독립 이표본 평균’ 절에서 살펴본 sleep 데이터를 다시 사용하자. 그룹별 평균을 구하는 방법도 해당 절을 참고하기 바란다.
sleep 데이터는 다음과 같이 수면제 1(group == 1)과 수면제 2(group == 2) 각각에 대해 환자 ID가 오름차순으로 정렬되어 있다. 따라서 수면제별로 데이터를 잘라냈을 때 수면제 1과 수면제 2의 환자가 동일한 순서로 오게 된다.
> sleep
extra group ID
1 0.7 1 1
2 -1.6 1 2
3 -0.2 1 3
4 -1.2 1 4
5 -0.1 1 5
6 3.4 1 6
7 3.7 1 7
8 0.8 1 8
9 0.0 1 9
10 2.0 1 10
11 1.9 2 1
12 0.8 2 2
13 1.1 2 3
14 0.1 2 4
15 -0.1 2 5
16 4.4 2 6
17 5.5 2 7
18 1.6 2 8
19 4.6 2 9
20 3.4 2 10
t.test( )에 paired=TRUE를 지정하고 짝지은 이표본 검정을 수행해보자. 앞서 설명한 것처럼 그룹별로 데이터를 잘라냈을 때 1, 2, 3, …, 10 환자 순서로 t.test( )의 인자로 넘겨지고 있다.
> with(sleep, t.test(extra[group==1], extra[group==2], paired=TRUE))
Paired t-test
data: extra[group == 1] and extra[group == 2]
t = -4.0621, df = 9, p-value = 0.002833
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.4598858 -0.7001142
sample estimates:
mean of the differences
-1.58
p-value < 0.05이므로 귀무가설 ‘H0: 모평균의 차이가 0이다’를 기각한다. 따라서 두 수면제의 수면 시간 증가 정도가 다르다고 결론을 내린다.
이 결론은 sleep 데이터를 독립 이표본으로 본 경우와 다른 결과다. 독립 이표본의 경우에는 신뢰 구간이 (-3.363874, 0.203874)로 구간 안에 0을 가까스로 포함한 형태였다. 짝지은 이표본 검정의 경우 독립 이표본 검정에 비해 추정의 정확도가 높아10 신뢰 구간이 좁아지면서 신뢰 구간에서 0이 빠지게 되었다. 그 결과 수면제 간 수면 시간 연장 정도에 차이가 존재함을 보이게 되었다.
10 추정의 정확도가 높다는 말은 추정치의 분산이 작다는 뜻이다. 분산은 데이터의 퍼짐 정도를 측정하므로 분산이 작다면 95% 신뢰 구간 역시 좁아지게 된다.