기술 통계1
summary( )는 ‘4.5.1 summaryBy( )’ 절에서 살펴본 함수로, 데이터에 대한 간략한 분포 정보를 알려준다. Hmisc에는 기술 통계 정보를 알려주는 describe( )와 summary.formula( )가 있다. 이 절에서는 이들 세 함수를 사용한 데이터 탐색 방법을 알아본다.
Hmisc::describe : 통계 요약 정보를 구한다. |
Hmisc::describe( x, # 데이터 프레임 # NA만 저장된 변수에 대한 처리를 지정한다. TRUE일 경우 출력의 맨 뒤에 NA만 저장한 변수를 # 나열한다. FALSE일 경우 NA만 저장된 변수에 대한 기술 통계도 출력한다. 그러나 NA만 저장된 # 변수의 경우 기술 통계 결과에 별 의미는 없을 것이다. exclude.missing=TRUE ) Hmisc::describe( x, # 포뮬러 data, # 포뮬러를 적용할 데이터 # NA를 처리할 방법. 기본값은 na.retain으로, NA를 유지한다. na.omit 또는 na.delete를 지정해 # NA를 제외할 수 있다. na.action ) 반환 값은 descript(x에 대한 제목), count(개수), values(값)를 저장한 리스트로, describe 객체다. |
Hmisc::summary.formula : 포뮬러를 사용해 데이터를 요약한다. |
Hmisc::summary.formula( formula, data, na.action=NULL, fun=NULL, # 데이터를 요약할 때 사용할 함수. 이 값을 지정하지 않으면 mean이 사용된다. # method의 기본값은 response이며, formula에서 '~' 좌측(이하 lhs)에 있는 하나 또는 그 이상의 # 반응 변수를 '~' 우측(이하 rhs)의 설명 변수 각각으로 요약한다. reverse의 경우 formula의 # lhs에 하나의 범주형 변수를 적고 rhs에 변수를 나열하면 rhs의 변수가 lhs의 범주형 변수로 # 하나하나 분할되어 요약된다. cross의 경우 lhs의 변수들을 rhs 변수의 조합에 따라 분할해 # 요약한다. method = c("response", "reverse", "cross") ) 반환 값은 print( ), plot( )으로 출력할 수 있는 데이터 프레임 또는 리스트다. |
1 기술 통계(descriptive statistics)[3]는 데이터의 주요 특징을 양적으로 기술하는 것을 뜻한다.