R을 이용한 데이터 처리 & 분석 실무: 일표본 비율

일표본 비율

모집단에서 표본을 추출하여 그 표본에서 계산한 비로부터 모집단의 비를 추정 및 가설 검정하는 내용에 대해 살펴보자. 일표본 비율의 예로는 국민 투표로 찬반 투표를 실시할 때 출구 조사를 들 수 있다. 투표자 중 임의의 표본(예를 들면, 1,000명의 유권자)에게 찬성과 반대 중 어느 쪽에 투표했는지를 물으면 찬성과 반대 중 어느 쪽의 비율이 크게 나타날지 추정할 수 있다.

이론적 배경

베르누이 시행Bernoulli Trial을 n회 수행하여 X번 성공했다고 하자.

<Note> 베르누이 시행

베르누이 시행이란 ‘성공’, ‘실패’ 두 가지 결과만 있는 실험을 말한다. 실험을 여러 번 반복할 때 성공의 확률은 매번 일정하다. 위키피디아의 베르누이 시행 페이지[22]를 참고하기 바란다.

이때 X는 성공 확률이 p인 베르누이 시행을 n회 수행했을 때 성공 횟수를 뜻하는 이항 분포Binomial Distribution를 따른다. 이를 다음과 같이 표현한다.

일표본 비율에서는 p를 구하는 것이 목적이다.

이항 분포 B(n, p)는 평균이 np, 분산이 np(1-p)며, n이 크면 정규 분포로 근사할 수 있다.

모비율에 대한 추정값 는 X/n으로 계산할 수 있으므로 위 식의 양변을 n으로 나누면 다음과 같다.

따라서 α=0.05라 할 때 모비율의 95% 신뢰 구간은 다음과 같다.

추정 및 검정의 예

비율에 대한 가설 검정 시 이항 분포의 정규 분포 근사를 사용할 경우 prop.test( )를 사용한다. 반면 이항 분포를 정규 분포로 근사하지 않고 그대로 사용해 계산하고 싶다면 binom.test( )를 사용한다(표 7-14 참고).

▼ 표 7-22 비율에 대한 가설 검정

prop.test : 비율에 대한 가설 검정을 수행한다. 귀무가설은 ‘두 그룹의 비율이 같다’ 또는 ‘비율이 p와 같다’이다.

prop.test(
  x,         # 성공 횟수를 저장한 벡터 또는 성공과 실패 수를 저장한 1x2 또는 2x2 표(행렬)
  n,         # 전체 시행 수
  p = NULL,  # 비율
  alternative = c("two.sided", "less", "greater")  # 대립가설
)

동전을 100번 던졌더니 앞면이 42번 나왔다고 하자. 이때 동전의 앞면이 나오는 비율이 50%가 아니라고 할 수 있을까? prop.test( ) 함수로 확인할 수 있다.

> prop.test(42, 100)

   1-sample proportions test with continuity correction

data:  42 out of 100, null probability 0.5
X-squared = 2.25, df = 1, p-value = 0.1336
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
 0.3233236 0.5228954
sample estimates:
   p
0.42

수행 결과 p-value > 0.05이므로 동전의 앞면이 나올 확률이 0.5라는 귀무가설을 기각할 수 없다. 이는 신뢰 구간 (0.32, 0.52)에 0.5가 포함되어 있는 것으로도 확인할 수 있다.

비율의 구간 추정 또는 검정 시 반드시 정규 분포 등으로 근사를 해야 하는 것은 아니다. binom.test( )를 사용하면 이항 분포로부터의 신뢰 구간을 직접 계산한다.

> binom.test(42, 100)

   Exact binomial test

data:  42 and 100
number of successes = 42, number of trials = 100, p-value = 0.1332
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.3219855 0.5228808
sample estimates:
probability of success
                  0.42

이항 분포를 통한 정확한 계산의 경우에도 동전의 앞면이 나올 확률이 0.5라는 귀무가설을 기각하지 못한다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.