더북(TheBook)

추정 및 검정의 예

일표본 평균의 구간 추정 및 가설 검정에는 t.test( ) 함수를 사용한다.

표 7-20 t 검정(t-test)

t.test : t 검정을 수행한다. 귀무가설은 ‘모평균이 mu 와 같다.’이다.

t.test(
  # 일표본 t 검정의 경우 x에만, 이표본 t 검정의 경우 x, y 모두에 숫자 벡터를 지정한다.
  x,
  y = NULL,
  alternative = c("two.sided", "less", "greater"),  # 대립가설
  mu = 0,              # 모집단의 평균
  paired = FALSE,      # 짝지은 이표본 평균(뒤에서 다룸)의 경우 TRUE, 그렇지 않으면 FALSE
  var.equal = FALSE,   # 이표본 검정에서 두 집단의 분산이 같은지 여부
  conf.level = 0.95, ...)

t.test(
  formula,  # lhs ~ rhs 형태로 쓰며 lhs는 검정에 사용할 값, rhs는 두 개의 그룹을 뜻하는 팩터
  data      # 포뮬러가 적용될 행렬 또는 데이터 프레임
)

일표본 평균의 추정 및 가설 검증에서는 t.test( )에서 보통 x, alternative, mu 인자만 사용한다. 다음은 평균 0, 분산 1인 정규 분포 N(0, 1)로부터 30개의 표본을 뽑아 모평균의 구간을 추정한 예다.

> x <- rnorm(30)
 [1] -0.031730453 -0.589826570  1.575581040 -0.146396717 -0.328761466
 [6] -0.620959988  0.422465776  0.305835299 -0.314972917 -0.881650165
[11]  0.698445951 -0.293486558 -1.299123995  0.018505730 -0.510159586
[16]  1.398750247 -0.164320432  1.052527533 -0.017473444  0.415540231
[21] -0.815439177 -1.044640606  1.002270966 -0.594042081 -0.003546248
[26]  0.179795860  1.267979880 -0.028501269 -1.176802619 -1.860904735

> t.test(x)

   One Sample t-test

data: x
t = -0.5284, df = 29, p-value = 0.6012
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 -0.3872198 0.2282171
sample estimates:
  mean of x
-0.07950135

t.test( )는 이 코드의 실행 결과에서 보인 것처럼 평균에 대한 신뢰 구간 및 가설 검정 결과를 한 번에 보여준다. 실행 결과 모평균은 -0.07950135, 모평균의 95% 신뢰 구간은 (-0.3872198, 0.2282171)로 추정되었다. 기본 인자에 의한 귀무가설은 ‘H0: 모평균이 0이다’고, p-value가 0.6012로 0.05보다 커서 귀무가설을 기각하지 못하므로 모집단의 평균은 0으로 본다. 이는 95% 신뢰 구간에 0이 포함되어 있다는 것으로도 알 수 있는 내용이다.

다음은 평균이 10, 분산이 1인 정규 분포 N(10, 1)에서 30개의 표본을 뽑아 모평균의 구간을 추정한 예다.

> x <- rnorm(30, mean=10)
> t.test(x, mu=10)

   One Sample t-test

data: x
t = 0.1694, df = 29, p-value = 0.8666
alternative hypothesis: true mean is not equal to 10
95 percent confidence interval:
  9.688162 10.368171
sample estimates:
mean of x
 10.02817

t.test( ) 수행 결과 표본 평균은 10.02817, 평균의 신뢰 구간은 (9.688162, 10.368171)이다. t.test( )에 mu=10을 지정했으므로 모평균이 10인지에 대한 가설 검증이 수행되었는데, p-value > 0.05며 신뢰 구간이 10을 포함하므로 귀무가설 ‘H0: mu=10’을 기각하지 못한다.

이 절의 방법은 데이터가 정규 분포로부터 나온 것임을 가정하고, 식 7-9를 사용해 구간 추정을 수행했다. 앞서 보인 예제 코드들에서는 rnorm( )을 사용해 데이터를 생성했으므로 데이터가 정규 분포로부터 나온 표본임이 보장되었다. 그러나 데이터가 정규 분포를 따르는지 불명확한 경우에는 ‘7.5 적합도 검정’ 절의 샤피로 윌크 검정, 콜모고로프 스미르노프 검정, Q-Q도를 사용해 데이터의 정규성을 검토할 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.