R을 이용한 데이터 처리 & 분석 실무: 추정 및 검정의 예

추정 및 검정의 예

‘7.7.2 독립 이표본 평균’ 절에서 살펴본 sleep 데이터를 다시 사용하자. 그룹별 평균을 구하는 방법도 해당 절을 참고하기 바란다.

sleep 데이터는 다음과 같이 수면제 1(group == 1)과 수면제 2(group == 2) 각각에 대해 환자 ID가 오름차순으로 정렬되어 있다. 따라서 수면제별로 데이터를 잘라냈을 때 수면제 1과 수면제 2의 환자가 동일한 순서로 오게 된다.

> sleep
   extra group ID
1    0.7     1  1
2   -1.6     1  2
3   -0.2     1  3
4   -1.2     1  4
5   -0.1     1  5
6    3.4     1  6
7    3.7     1  7
8    0.8     1  8
9    0.0     1  9
10   2.0     1 10
11   1.9     2  1
12   0.8     2  2
13   1.1     2  3
14   0.1     2  4
15  -0.1     2  5
16   4.4     2  6
17   5.5     2  7
18   1.6     2  8
19   4.6     2  9
20   3.4     2 10

t.test( )에 paired=TRUE를 지정하고 짝지은 이표본 검정을 수행해보자. 앞서 설명한 것처럼 그룹별로 데이터를 잘라냈을 때 1, 2, 3, …, 10 환자 순서로 t.test( )의 인자로 넘겨지고 있다.

> with(sleep, t.test(extra[group==1], extra[group==2], paired=TRUE))

   Paired t-test

data:  extra[group == 1] and extra[group == 2]
t = -4.0621, df = 9, p-value = 0.002833
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.4598858 -0.7001142
sample estimates:
mean of the differences
                  -1.58

p-value < 0.05이므로 귀무가설 ‘H₀: 모평균의 차이가 0이다’를 기각한다. 따라서 두 수면제의 수면 시간 증가 정도가 다르다고 결론을 내린다.

이 결론은 sleep 데이터를 독립 이표본으로 본 경우와 다른 결과다. 독립 이표본의 경우에는 신뢰 구간이 (-3.363874, 0.203874)로 구간 안에 0을 가까스로 포함한 형태였다. 짝지은 이표본 검정의 경우 독립 이표본 검정에 비해 추정의 정확도가 높아10 신뢰 구간이 좁아지면서 신뢰 구간에서 0이 빠지게 되었다. 그 결과 수면제 간 수면 시간 연장 정도에 차이가 존재함을 보이게 되었다.

10 추정의 정확도가 높다는 말은 추정치의 분산이 작다는 뜻이다. 분산은 데이터의 퍼짐 정도를 측정하므로 분산이 작다면 95% 신뢰 구간 역시 좁아지게 된다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.