R을 이용한 데이터 처리 & 분석 실무: 기술 통계

기술 통계1

summary( )는 ‘4.5.1 summaryBy( )’ 절에서 살펴본 함수로, 데이터에 대한 간략한 분포 정보를 알려준다. Hmisc에는 기술 통계 정보를 알려주는 describe( )와 summary.formula( )가 있다. 이 절에서는 이들 세 함수를 사용한 데이터 탐색 방법을 알아본다.

▼ 표 9-1 데이터 요약

Hmisc::describe : 통계 요약 정보를 구한다.

Hmisc::describe(
  x, # 데이터 프레임
  # NA만 저장된 변수에 대한 처리를 지정한다. TRUE일 경우 출력의 맨 뒤에 NA만 저장한 변수를
  # 나열한다. FALSE일 경우 NA만 저장된 변수에 대한 기술 통계도 출력한다. 그러나 NA만 저장된
  # 변수의 경우 기술 통계 결과에 별 의미는 없을 것이다.
  exclude.missing=TRUE
)

Hmisc::describe(
  x,     # 포뮬러
  data,  # 포뮬러를 적용할 데이터
  # NA를 처리할 방법. 기본값은 na.retain으로, NA를 유지한다. na.omit 또는 na.delete를 지정해
  # NA를 제외할 수 있다.
  na.action
)

반환 값은 descript(x에 대한 제목), count(개수), values(값)를 저장한 리스트로, describe 객체다.

Hmisc::summary.formula : 포뮬러를 사용해 데이터를 요약한다.

Hmisc::summary.formula(
  formula,
  data,
  na.action=NULL,
  fun=NULL, # 데이터를 요약할 때 사용할 함수. 이 값을 지정하지 않으면 mean이 사용된다.
  # method의 기본값은 response이며, formula에서 '~' 좌측(이하 lhs)에 있는 하나 또는 그 이상의
  # 반응 변수를 '~' 우측(이하 rhs)의 설명 변수 각각으로 요약한다. reverse의 경우 formula의
  # lhs에 하나의 범주형 변수를 적고 rhs에 변수를 나열하면 rhs의 변수가 lhs의 범주형 변수로
  # 하나하나 분할되어 요약된다. cross의 경우 lhs의 변수들을 rhs 변수의 조합에 따라 분할해
  # 요약한다.
method = c("response", "reverse", "cross")
)

반환 값은 print( ), plot( )으로 출력할 수 있는 데이터 프레임 또는 리스트다.

1 기술 통계(descriptive statistics)[3]는 데이터의 주요 특징을 양적으로 기술하는 것을 뜻한다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.