4.5.4 순차 특성 선택 알고리즘
모델 복잡도를 줄이고 과대적합을 피하는 다른 방법은 특성 선택을 통한 차원 축소(dimensionality reduction)입니다. 규제가 없는 모델에서 특히 유용합니다. 차원 축소 기법에는 두 개의 주요 카테고리인 특성 선택(feature selection)과 특성 추출(feature extraction)이 있습니다. 특성 선택은 원본 특성에서 일부를 선택합니다. 특성 추출은 일련의 특성에서 얻은 정보로 새로운 특성을 만듭니다.
이 절에서 전통적인 특성 선택 알고리즘을 살펴보겠습니다. 그다음 5장에서 데이터셋을 저차원 특성 부분 공간으로 압축하는 특성 추출 기법에 대해 배우겠습니다.
순차 특성 선택(sequential feature selection) 알고리즘은 탐욕적 탐색 알고리즘(greedy search algorithm)으로 초기 d 차원의 특성 공간을 k < d인 k 차원의 특성 부분 공간으로 축소합니다. 특성 선택 알고리즘은 주어진 문제에 가장 관련이 높은 특성 부분 집합을 자동으로 선택하는 것이 목적입니다. 관계없는 특성이나 잡음을 제거하여 계산 효율성을 높이고 모델의 일반화 오차를 줄입니다. 규제를 제공하지 않는 알고리즘을 사용할 때 유용합니다.
전통적인 순차 특성 선택 알고리즘은 순차 후진 선택(Sequential Backward Selection, SBS)입니다. 계산 효율성을 향상하기 위해 모델 성능을 가능한 적게 희생하면서 초기 특성의 부분 공간으로 차원을 축소합니다. 과대적합의 문제를 안고 있는 모델이라면 SBS가 예측 성능을 높일 수도 있습니다.
Note ≡ 탐욕적 탐색 알고리즘
탐욕적 알고리즘(greedy algorithm)은 조합 탐색(combinatorial search) 문제의 각 단계에서 국부적으로 최적의 선택을 합니다. 일반적으로 해당 문제에 대한 차선의 솔루션을 만듭니다. 완전 탐색 알고리즘(exhaustive search algorithm)은 모든 가능한 조합을 평가하므로 최적의 솔루션을 찾을 것이라고 보장됩니다. 실전에서는 완전 탐색이 계산하기 불가능한 경우가 많고 탐욕적 알고리즘이 덜 복잡하고 효율적으로 계산할 수 있는 솔루션을 만들 수 있습니다.