모두의 R 데이터 분석: 6. 추론 통계와 가설 검정

6. 추론 통계와 가설 검정

대한민국 국민의 평균 몸무게를 알아내는 방법 중 가장 정확한 것은 모든 사람의 몸무게를 측정하는 것입니다. 하지만 전 국민의 몸무게를 측정하는 일은 매우 어렵습니다. 그래서 고안한 것이 전체 집단 중 일부 표본(표본 집단)을 조사하여 전체 집단(모집단)의 특성을 추정하는 추론 통계학입니다.

• 귀무 가설(사실이라고 가정하는 상황, H0): 차이가 없다.

• 대립 가설(우리가 새로 검증하고 싶은 상황, H1): 차이가 있다.

통계 분석에서는 귀무 가설을 검정합니다. 즉, 귀무 가설이 참이라는 가정하에 기각(아니라고 결정)할 수 있는지 여부를 판단합니다. 귀무 가설이 기각되면 연구자가 주장하고 싶은 대립 가설을 채택하는 식입니다. 연구자는 기존과 다른 현상을 밝히고 싶기 때문에 통계를 이용하여 귀무 가설을 기각하는 증거를 찾습니다. 가설을 검정하려면 유의 수준과 유의 확률을 알아야 합니다.

유의 수준(α) 가설 검정을 할 때 표본 자료에서 얻은 검정 통계량¹¹이 기각역(rejection area)(기각 구간)에 들어갈 확률, 즉 오차 가능성을 의미합니다. 유의 수준은 연구자 목적에 따라 보통 1%, 5%, 10% 등으로 설정합니다. 쉽게 말하면 유의 수준은 귀무 가설의 기각 여부를 결정하는 데 사용하는 의사 결정 기준입니다.

유의 확률(p-value)은 귀무 가설을 지지하는 정도를 의미합니다. 보통 유의 확률이 낮아질수록 귀무 가설을 기각하는 데 설득력을 가지므로, 통계적으로 유의미하다고 할 수 있습니다.

11 전체 집단을 추정하고자 표본 집단에서 계산 규칙에 따라 생성한 값을 의미합니다.

추천 도서와 신규 콘텐츠를 먼저 받아보세요