더북(TheBook)

변수 선택 방법

중선형 회귀 모델에서의 설명 변수를 선택하는 방법 중 한 가지는 특정 기준(예를 들면, F 통계량이나 AIC7 을 사용해 변수를 하나씩 택하거나 제거하는 것이다.[7] 단계적 변수 선택 방법은 다음의 3가지 경우로 구분할 수 있다.

1. 전진 선택법(forward selection) : 절편만 있는 모델에서 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가하는 방법이다.

2. 변수 소거법(backward elimination) : 모든 변수가 포함된 모델에서 기준 통계치에 가장 도움이 되지 않는 변수를 하나씩 제거하는 방법이다.

3. 단계적 방법(stepwise selection) : 모든 변수가 포함된 모델에서 출발하여 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나, 모델에서 빠져 있는 변수 중에서 기준 통계치를 가장 개선시키는 변수를 추가한다. 그리고 이러한 변수의 추가 또는 삭제를 반복한다. 반대로 절편만 포함된 모델에서 출발해 변수의 추가, 삭제를 반복할 수도 있다.

위 세 가지 방법의 변수 선택은 step( ) 함수로 수행할 수 있다.

표 8-9 단계적 알고리즘에 의한 모델 선택

step : 단계적 알고리즘(stepwise algorithm)을 사용해 AIC를 기준으로 모델을 선택한다.

step(
  object,
  # 탐색할 모델의 범위를 지정한다. 범위는 단일 포뮬러 또는 하한과 상한을 lower, upper
  # 저장한 리스트로 지정할 수 있다.
  scope,
  # 변수 선택의 방향. forward는 변수를 추가해나가는 방법, backward는 변수를 삭제해나가는 방법,
  # both는 추가와 삭제를 모두 사용한 방법을 의미한다.
  direction=c("both", "forward", "backward")
)

반환 값은 단계적 알고리즘이 선택한 모델이다.

formula : 모델 포뮬러를 구한다.

formula(
  x  # R 객체
)

반환 값은 모델의 포뮬러다.


7 아카이케 정보 기준(AIC, Akaike Information Criteria)은 주어진 데이터에 대한 통계 모델의 상대적 품질을 평가하는 척도다. 위키피디아의 AIC 페이지[15]를 참고하기 바란다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.