더북(TheBook)
<Note> 귀무가설, 대립가설, p-value, 유의수준

가설 검정에서 사용하는 귀무가설, 대립가설, p-value에 대해 알아보자.

통계에서의 가설 검정은 측정된 두 현상 간에 관련이 없다는 귀무가설(Null Hypothesis; 흔히 H0으로 표시함)과 두 현상 간에 ‘관련이 있다’고 보는 것으로 연구자가 알아보고자 하는 가설인 대립가설(Alternative Hypothesis; 흔히 H1로 표시)을 사용한다. 귀무가설과 대립가설은 서로 모순 관계다. 따라서 귀무가설이 참이면 대립가설이 거짓이고, 귀무가설이 거짓이면 대립가설이 참이다.

귀무가설은 ‘관련이 없다’는 형태의 가설이다. 귀무가설의 예에는 ‘두 변수가 독립이다’, ‘두 변수의 평균에 차이가 없다’, ‘동전을 던졌을 때 앞면이 나올 확률과 뒷면이 나올 확률에 차이가 없다’, ‘특정 약이 질병 치료에 효과가 없다’, ‘올해 제품의 생산량과 작년의 생산량이 같다’ 등을 들 수 있다.

대립가설은 ‘관련이 있다’의 형태로 그 예로는 ‘두 변수가 독립이 아니다’, ‘두 변수의 평균에 차이가 있다’, ‘동전의 앞면이 나올 확률이 동전의 뒷면이 나올 확률과 다르다’, ‘특정 약이 질병 치료에 효과가 있다’, ‘올해 제품의 생산량과 작년의 생산량이 다르다’ 등을 생각해볼 수 있다.

대립가설은 값이 ‘같지 않다’, ‘작다’, ‘크다’ 세 가지 형태로 나타낼 수 있다. 그 예로 ‘올해 생산량은 작년의 생산량과 다르다(즉, 올해 생산량이 크거나 작다)’, ‘올해 생산량은 작년의 생산량보다 작다’, ‘올해 생산량은 작년의 생산량보다 크다’를 들 수 있다. 이들 중 ‘같지 않다’를 양측 검정(two sided test), ‘크다’와 ‘작다’를 단측 검정(one sided test)이라 한다.

가설 검정은 귀무가설을 일단 참이라고 가정하고 시작한다. 그 뒤 귀무가설을 참이라고 생각했을 때 주어진 데이터 또는 그보다 극단적인 데이터가 관측될 확률을 구한다. 이를 p-value라고 한다. ‘더 극단적’이라는 개념은 대립가설의 형태마다 다르다. ‘크다’ 형태의 대립가설이라면 관측값 또는 그 값보다 큰 값을 볼 확률이 될 것이고, ‘작다’ 형태의 대립가설이면 관측값 또는 그보다 작은 값을 볼 확률이 된다. 반면 양측 검정(‘같지 않다’ 형태)의 경우에는 작은 경우와 큰 경우를 모두 포함한다.

예를 들어, 공장에서 올해의 생산량이 작년의 생산량보다 큰지를 알아보기 위해 전체 공장 100곳 중 10곳의 생산량을 조사해봤다고 하자. 이때 귀무가설(H0)은 ‘올해 생산량은 작년의 생산량과 같다’이고 대립가설(H1)은 ‘올해 생산량은 작년의 생산량보다 크다’이다. ‘크다’ 형태의 대립가설에서 p-value는 그림 7-4와 같다.

그림 7-4 귀무가설과 p-value의 관계
그림 7-4 귀무가설과 p-value의 관계

그림에서 곡선은 귀무가설이 참일 때(올해 생산량과 작년의 생산량이 같을 때) 10곳의 생산량이 어떻게 관찰되어야 하는지의 확률 분포를 나타낸다. 이 확률 분포는 작년의 생산량을 중심으로 서서히 작년의 생산량과 다른 값을 볼 확률이 낮아지는 형태다. p-value는 조사 결과 알게 된 10곳의 생산량 또는 그보다 큰 생산량이 관찰될 확률로, 색칠된 영역에 해당한다. 반면 대립가설을 ‘H1: 올해의 생산량은 작년의 생산량과 다르다’로 놓으면 그림 7-5와 같이 반대쪽 영역을 p-value 계산에 포함한다. 그 이유는 생산량이 같다는 귀무가설이 참이라고 할 때 ‘더 극단적’인 영역이란 작년의 생산량에 해당하는 가운데 부분에서 더 멀리 떨어지는 것을 의미하기 때문이다.

그림 7-5 양측 검정에서의 p-value
그림 7-5 양측 검정에서의 p-value

그림 7-4와 그림 7-5에 보인 것처럼 궁극적으로 p-value는 귀무가설이 참일 때 주어진 데이터가 관찰될 확률이다. 따라서 p-value가 작다면 귀무가설이 참이라고 믿었는데 관찰된 데이터는 그 가정 하에서는 좀처럼 볼 수 없는 값이었다는 뜻이다. 따라서 p-value가 작다면 귀무가설이 사실이 아니라고 볼 수밖에 없으므로 대립가설을 참이라고 판단한다. 이를 통계 용어로 ‘귀무가설을 기각(reject)하고 대립가설을 채택(accept)한다’고 표현한다. 반대로 p-value가 크다면 귀무가설을 기각할 수 없으므로 대립가설을 기각하게 된다. 즉, p-value는 귀무가설을 지지하는 정도다.

어느 정도의 p-value면 크다 또는 작다고 말할 수 있을까? p-value를 크다, 작다로 나누는 기준을 유의수준(significance level)이라고 하며 그 값을 기호 α로 표시한다. 유의수준으로는 보통 0.05가 사용된다. 즉, p-value가 5%보다 크다면 귀무가설을 채택한다. 이는 곧 귀무가설에 95%의 신뢰를 주는 것이다. 이처럼 귀무가설에 특혜를 주는 이유는 확실한 증거가 없이는 두 변수 간에 상관관계가 있다고 말하지 않기 위함이다. 예를 들어, 어떤 새로운 약물이 질병에 효과가 있는지를 알아보는 가설 검정을 생각해보자. 약물이 정말로 효과가 있는지 아주 잘 증명되지 않는다면 사람들은 투약을 꺼릴 것이다. 바로 이러한 점이 귀무가설을 기준으로 모든 것을 생각하게 되는 이유다.

이 절에서 살펴본 성별과 운동의 데이터에 대한 독립성 검정에서 p-value는 0.05731이었다. 이 값은 0.05보다 커서 주어진 분할표는 성별과 운동이 상관관계가 없다는 귀무가설을 기각할 충분한 증거가 되지 않는다. 따라서 성별과 운동은 상관관계가 없다는 결론을 내리게 된다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.