06 | 상관 분석
상관 분석Correlation Analysis은 두 확률 변수 사이의 관련성을 파악하는 방법이다. 상관 계수Correlation Coefficient는 두 변수 간 관련성의 정도를 의미하며, 이를 계산하는 방법에는 피어슨 상관 계수, 스피어만 상관 계수, 켄달의 순위 상관 계수 등이 있다. 그러나 흔히 상관 계수라고하면 피어슨 상관 계수를 뜻한다.
상관 계수 값이 크면 데이터 간의 관계가 존재한다는 의미며, 보통 한쪽 값이 커질 때 다른 쪽 값이 커지는 정도가 크다. 그러나 상관 계수가 크다고 해서 변수 간에 인과관계가 있음을 뜻하지는 않는다. A가 커짐에 따라 B가 커지는 것을 보고 A가 B를 야기한다고 판단했으나 실제로는 또 다른 변수 C가 A와 B를 동시에 증가시키고 있거나(이를 교락 변수Confounding Variable라고 부름), A가 B의 원인이라고 예상했지만 실제로는 B가 A의 원인일 수도 있기 때문이다.[12]
두 확률 변수 간에 다음 식이 성립하면 독립Independence이라고 한다.
변수가 서로 독립이라면 변수 간에 관련성이 없어 상관 계수가 0이다. 그러나 상관 계수가 0이라고 해서 두 변수가 독립임을 의미하지는 않는다. 변수 간 독립성 확인은 식 7-4가 성립함을 살펴보거나 ‘7.4.3 독립성 검정’ 절에서 살펴본 독립성 검정을 사용해 알 수 있다.