1.5.7 공분산과 상관계수
두 변수의 상관관계를 나타내는 척도로 공분산과 상관계수가 있다. 공분산 수식(표본의 공분산)은 다음과 같다.
![]()
여기서 x와 y는 각각의 변수를 의미하고 μ는 변수의 평균이다. 그리고 n은 데이터의 개수를 의미한다.
수식을 분석하면, 분모는 데이터의 개수로 나눈 것이다. 그리고 분자에 해당하는 부분 Σ(x - μx)(y - μy)를 보면 가로와 세로를 곱한 것(사각형의 면적)을 합쳐놓은 듯한 모습이다. 합계를 개수(n - 1)로 나눴다는 점에서 위의 공분산 수식은 평균의 일종임을 알 수 있다.
종합하면, 다음 그림과 같이 평균 μ를 영점으로 하는 1, 2, 3, 4로 번호를 매겨둔 네 사각형의 평균 면적이다.

▲ 그림 1-36 공분산은 평균을 중심으로 모인 네 사각형의 평균 면적으로 생각할 수 있다