6.1 상관분석
상관분석(correlation analysis)이란 상관관계라는 통계량으로 비교 대상인 두 집단 사이의 관계를 파악할 수 있게 도와주는 기법이다. 예를 들어 ‘공부 시간과 성적 사이의 관계는 어떠한가?’라는 질문에 대해서, 상관관계는 공부 시간이 많으면 성적도 높은 편이다는 식의 답변을 줄 수 있다. 이때 상관관계는 데이터를 이용하여 직선적인 관계가 존재하는지를 파악한다는 점이 중요하다.
직선적인 관계가 의미하는 것은 꽤나 단순한다. 예를 들어 공부 시간과 성적을 비교한다고 하자. 우리는 공부 시간이 많아지면 성적이 높아질 것이라 기대할 수 있다. 사실 이 현상을 더 구체적이고 입체적으로 살펴보면 공부 시간이 아주 많으면 스트레스를 받아 성적이 떨어질 수도 있고, 공부 시간에 만화책을 봐서 생각보다 성적이 안 오를 수도 있다. 하지만 그런 세부적인 내용은 차치하고, 대략적으로 공부 시간이 많으면 성적이 높다는 것을 기대할 수 있다. 이처럼 공부 시간과 성적의 관계를 살펴볼 때 공부 시간이 늘어나면 성적도 오르는 단순한 관계를 우리는 직선적인 관계라 한다.
이러한 직선적 관계는 하나가 늘어날 때 다른 하나는 줄어드는 관계이다. 반면 하나가 늘어남에 따라 다른 하나가 늘어나다가 줄어드는 관계는 직선적인 관계가 아니다. 어떤 변수가 증가할 때 다른 변수도 증가하는지 또는 감소하는지를 나타내는 직선적인 관계를 ‘선형 관계’라 부르자.
예를 들어 소득과 지출의 관계에 대해 알고 싶다고 하자. 구체적으로, 소득이 많을수록 지출이 많은지 아니면 반대로 적은지에 대해 의문을 가질 수 있다. 그리고 이러한 소득과 지출의 관계에 대해서는 현재까지 알려진 바가 없다고 하자(실제로는 많은 연구가 이뤄졌지만, 이 예에서는 지금까지 알려진 지식이 없다고 가정했다). 이때 우리가 관심을 갖는 관계는 소득이 높아질 때 지출이 증가하는지 혹은 감소하는지와 같은 선형 관계이다. 만약 지출이 특정 소득까지는 증가하다가 그 이상의 소득에서는 감소하는 경우는 고려하지 않았다. 이제 상관분석의 가설은 소득과 지출의 상관관계가 없는지 또는 있는지를 바탕으로 다음처럼 수립할 수 있다.
- 귀무 가설(H0): ρ = 0(상관관계가 없다.)
- 대립 가설(H1): ρ≠0(상관관계가 있다.)