변수 선택
주어진 데이터의 변수 중 모델링에 가장 적합한 변수만 택하는 과정을 변수 선택Variable Selection 또는 피처 선택Feature Selection이라 한다.
변수 선택 방법은 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성(예를 들면, 상호 정보량Mutual Information이나 상관 계수)으로부터 변수를 택하는 필터 방법Filter Method과 변수의 일부만을 모델링에 사용하고 그 결과를 확인하는 작업을 반복하면서 변수를 택해나가는 래퍼 방법Wrapper Method, 모델 자체에 변수 선택이 포함된 임베디드 방법Embedded Method(예를 들면, LASSO)으로 분류된다.[7]
여기서는 필터 방법 중 대표적인 몇 가지 기법을 살펴본다.