더북(TheBook)

4.3 통계량의 이해: 다변수 통계량

이제 두 종류 이상의 관측값에 대한 요약인 다변수 통계량을 살펴보자. 앞에서는 한 과목의 성적에 대한 요약 값을 다뤘다면 여기서는 두 과목의 성적에 대한 요약 값으로 넓어진 경우를 가정해보자. 한 과목의 성적에 대한 요약 값을 구하는 것은 앞서 살펴본 단변수 통계량의 영역이다. 과목 수를 늘리면 다변수 통계량이 된다. 이 절에서는 두 과목으로 넓어진 경우로 다변수 통계량을 살펴보자.

다음 그림 4-6처럼 한 반에서 두 과목에 대한 성적을 정리하였다. 이 절에서 살펴보려는 다변수 통계량은 수학과 영어 두 과목 간의 관계에 대한 요약 값을 의미한다.

▲ 그림 4-6 한 학급의 두 과목 성적

두 변수가 같은 개수의 값을 갖고 있을 때 우리가 말하는 두 변수의 관계라는 것은 한 변수가 커질 때 다른 변수도 커지거나 작아지는 관계를 의미한다. 이러한 다변수 통계량의 대표적인 예가 바로 공분산(covariance)이다. 공분산은 단변수 통계량의 분산(한 변수에 대한 관측값의 퍼짐 정도)과 비슷하다. 공분산은 두 변수 X, Y가 각 평균으로부터 떨어진 정도로, 변수와 변수 평균값의 차이를 각 곱한 다음 평균으로 구한 값이다. 한 학급의 두 과목 성적을 다음 표 4-1에 나타내고, 공분산을 계산해보자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.