07 | 추정 및 검정
이 절에서는 평균, 분산, 비율에 대해 추정inference하고 검정test하는 방법에 대해 살펴본다. 이 절에서 주로 설명할 추정은 구간 추정이다. 예를 들어, 평균의 구간 추정은 데이터로부터 표본을 추출하여 표본의 평균을 구한 뒤 전체 데이터의 평균이 어떤 구간 [a, b]에 있다고 말하는 것이다.
이 절의 내용에서 이론적 배경 부분은 위키피디아와 참고자료[19], [20], [21]에서 핵심 내용만 간추린 것이다. 그러므로 부족한 통계적 설명은 참고자료를 보기 바란다.
이 절에서 살펴볼 추정은 전체 데이터(이후 모집단이라 부름)로부터 일부를 표본으로 취한 뒤 표본으로부터 신뢰 수준 95%의 신뢰 구간을 구하는 내용이다.
평균을 구하는 경우를 생각해보자. 모집단에서 일부를 표본으로 추출한 뒤 표본의 평균을 구하면 이 값을 전체 데이터의 평균으로 볼 수 있다. 예를 들어, 우리나라 20대의 평균 키를 알고자 한다면 전국 20대 중 100명을 뽑아 이들의 키를 재고 평균을 구할 수 있다. 그러면 그 평균이 전국 20대 평균에 대한 추정값이다. 이처럼 하나의 값으로 추정하는 것을 점 추정(point estimation)이라 한다.
그러나 실제 우리나라 20대의 평균값이 정확히 점 추정된 값은 아닐 수 있다. 그보다는 점 추정된 값 근처 어딘가에 있다고 보는 것이 더 타당할 것이다. 이때 사용되는 개념이 신뢰 구간(confidence interval)이다. 신뢰 구간은 (a, b)의 구간 형태 또는 x ± y 형태로 표현한다. 예를 들어, (160cm, 180cm)는 우리나라 20대 키의 평균이 160cm 초과, 180cm 미만이라는 뜻이다. 또 이를 170cm ± 10cm로도 표현할 수 있다. 이렇게 모집단에서의 값을 구간 형태로 표시하는 것이 구간 추정(interval estimate)이다.
그렇다면 신뢰 구간은 어떻게 구할까? 신뢰 구간은 신뢰 수준(confidence level)을 먼저 전제하여 계산한다. 신뢰 수준은 신뢰 구간을 구하는 작업을 여러 번 반복했을 때 참 값이 그 구간에 얼마나 자주 속하는지를 뜻한다. 예를 들어, 95% 신뢰 수준으로 20대 평균 키를 구간 추정했을 때 (160cm, 180cm)였다는 말은 20대 평균 키를 알아내기 위해 20대 중 100명을 뽑아 평균 키에 대한 신뢰 구간을 구하는 작업을 여러 번 반복했을 때 그중 95%에서 신뢰 구간 안에 우리나라 20대 평균 키가 속해 있었다는 의미다.
신뢰 구간을 구하는 데는 약간의 통계적 가정이 필요하다. 예를 들면, 우리나라 20대의 키는 정규 분포를 따른다거나 하는 것이다. 이렇게 분포를 가정하면 통계적 이론에 의해 주어진 신뢰 수준에 해당하는 신뢰 구간을 구할 수 있다.