R을 이용한 데이터 처리 & 분석 실무: 표본 평균, 표본 분산, 표본 표준 편차

표본 평균, 표본 분산, 표본 표준 편차

표본 평균, 표본 분산, 표본 표준 편차는 표본 X₁, X₂, …, X_n의 n개 표본이 있을 때 다음과 같이 계산한다.

분산의 계산에서 분모에 n이 아니라 n - 1을 사용하고 있다는 점에 유의하기 바란다. R에서 기본적으로 계산하는 분산과 표준 편차는 전체 데이터 중 일부를 샘플로 추출한 뒤 이에 대해 분산과 표준 편차를 계산하는 표본 분산과 표본 표준 편차다. 따라서 n - 1을 분모로 사용한다.2

다음 표에 평균, 표본 분산, 표본 표준 편차 계산 함수를 보였다.

▼ 표 7-4 평균, 표본 분산, 표본 표준 편차 계산 함수

mean : 평균을 계산한다.

mean(
  x,
  # trim은 데이터를 크기 순서로 나열한 뒤 값이 작은 쪽과 큰 쪽에서 얼마만큼의 데이터를
  # 제거한 다음 평균을 계산할지를 (0, 0.5) 사이의 값으로 지정한다. 이렇게 계산한 평균을
  # 절사평균(Trimmed Mean)이라고 한다.
  trim=0,
  na.rm=FALSE,  # 평균 계산 전 NA를 제거할지 여부
  ...
)

var : 표본 분산을 계산한다.

var(
  x,
  na.rm=FALSE,
)

sd : 표본 표준 편차를 계산한다.

sd(
  x,
  na.rm=FALSE,
)

다음은 c(1, 2, 3, 4, 5)의 평균, 표본 분산, 표본 표준 편차를 계산한 예다.

> mean(1:5)
[1] 3
> var(1:5)
[1] 2.5
> sum((1:5-mean(1:5))^2)/(5-1)  # 분모로 n-1이 사용됨을 확인할 수 있음
[1] 2.5
> sd(1:5)
[1] 1.581139

2 n-1로 나누는 이유는 위키피디아에서 베셀의 수정(Bessel’s Correction; http://en.wikipedia.org/wiki/Bessel%27s_correction)을 참고하기 바란다.

표본 평균, 표본 분산, 표본 표준 편차

추천 도서와 신규 콘텐츠를 먼저 받아보세요