1.5.4 분산과 표준편차
금융에서 분산(variance)과 표준편차(standard deviation)는 리스크를 가리키는 척도다. 좀 더 일반적으로 설명하면 분산과 표준편차는 데이터의 흩어진 정도를 가리킨다. 평균과 기댓값이 데이터의 중심을 가리킨다면, 분산과 표준편차는 데이터들이 데이터의 중심에서 얼마나 흩어져 있는지를 설명하는 척도다. 그러므로 각 변수 값에서 평균을 빼고 제곱해 합산한 것(이를 ‘편차 제곱합’이라고 한다)에 대해 평균을 내면 된다.
예를 들어 1, 2, 3, 4, 5라는 다섯 개의 숫자가 있다면 평균과 분산은 다음과 같다.
평균 = (1 + 2 + 3 + 4 + 5) / 5 = 3
분산 = 편차 제곱합 / 데이터의 개수 - 1
= ( (1 - 3)2 + (2 - 3)2 + (3 - 3)2 + (4 - 3)2 + (5 - 3)2 ) / (5 - 1) = 2.5
분산을 계산할 때 제곱을 하는 이유는 각 데이터에서 평균을 빼다 보면 (+)와 (-) 부호 때문에 편차 합산이 0이 되는 난감한 상황이 생기기 때문이다(위의 분산 계산에서 제곱을 하지 않으면 (1 - 3)과 (5 - 3), (2 - 3)과 (4 - 3)을 합치면 0이 된다). 따라서 모두 같은 부호를 가지도록 제곱을 하는 것이다. 단, 제곱한 탓에 단위가 흐트러진다는 단점이 있다.
분산은 확률이 있을 때 각 값에서 기댓값을 빼고 제곱을 한 후, 그 값이 나올 확률들을 곱하면서 전부 더한 값이다.