더북(TheBook)

다섯 수치 요약

다섯 수치 요약5 number summary은 데이터를 최솟값, 제1사분위수, 중앙값, 제3사분위수, 최댓값으로 요약한다. 다섯 수치 요약을 구하는 함수는 fivenum( )이다. summary( )는 fivenum( )과 유사하지만 다섯 수치 요약에 더해 평균까지 계산해준다.

표 7-5 다섯 수치 요약

fivenum : 다섯 수치 요약을 구한다.

fivenum(
  x,  # 숫자 벡터
  na.rm=TRUE
)

다음은 c(1, 2, 3, …, 11)의 다섯 수치 요약을 계산한 결과다. 최솟값이 1, 최댓값이 11, 중앙값이 6, 제1사분위수와 제3사분위수가 각각 3.5, 8.5임을 알 수 있다. summary( )는 이에 더해 추가로 평균Mean을 출력한다.

> fivenum(1:11)
[1] 1.0 3.5 6.0 8.5 11.0
> summary(1:11)
   Min. 1st Qu. Median    Mean 3rd Qu.    Max.
    1.0    3.5     6.0     6.0     8.5    11.0

fivenum( )과 summary( )는 데이터의 크기가 홀수일 경우에는 위의 예처럼 동일한 결과를 보이지만, 짝수일 때는 다소 다른 결과를 출력한다. 다음은 c(1, 2, 3, 4)에 대한 다섯 수치 요약과 summary( )의 출력 결과를 비교한 예다. 제1사분위수와 제3사분위수가 fivenum( )에서는 1.5, 3.5인 반면에 summary( )에서는 1.75, 3.25로 서로 다르다.

> fivenum(1:4)
[1] 1.0 1.5 2.5 3.5 4.0
> summary(1:4)
   Min. 1st Qu. Median   Mean 3rd Qu.   Max.
   1.00    1.75   2.50   2.50    3.25   4.00

fivenum( )이 제1사분위수와 제3사분위수를 찾는 방법은 다음과 같다. 먼저 1, 2, 3, 4에서 중앙값 2.5를 찾는다. 제1사분위수 계산을 위해 중앙값 이하의 좌측 데이터를 찾는다. 그러면 1, 2를 찾을 수 있다. 제1사분위수는 이들의 중앙값인 1.5가 된다. 마찬가지로 제3사분위수는 중앙값 이상의 데이터 3, 4로부터 중앙값을 찾는다. 이 값은 3.5다. 이렇게 계산한 제1사분위수를 lower hinge, 제3사분위수를 upper hinge라고 한다. 이 방식이 앞서 ‘6.8.1 상자 그림(boxplot)’ 절에서 설명한 상자 그림에서 사용하는 방법이다.

반면 summary( )는 이와 다른 다소 복잡한 방법을 사용해 제1사분위수와 제3사분위수를 추정한다. 자세한 내용은 quantile( ) 함수 매뉴얼[2]을 참고하기 바란다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.