3.1 분류 알고리즘 선택
특정 문제에 알맞은 분류 알고리즘을 선택하려면 연습과 경험이 필요합니다. 알고리즘은 저마다 특징이 있고 일정한 가정을 전제로 합니다. 데이비드 월퍼트의 공짜 점심 없음 이론을 되새겨 보면 모든 경우에 뛰어난 성능을 낼 수 있는 분류 모델은 없습니다.1 실제로 최소한 몇 개의 학습 알고리즘 성능을 비교하고 해당 문제에 최선인 모델을 선택하는 것이 항상 권장됩니다. 특성이나 샘플의 개수에 따라 다르고 데이터셋에 있는 잡음 데이터의 양과 클래스가 선형적으로 구분되는지 아닌지에 따라서도 다를 것입니다.
결국 분류 모델의 예측 성능과 계산 성능은 학습에 사용하려는 데이터에 크게 의존합니다. 머신 러닝 알고리즘을 훈련하기 위한 다섯 가지 주요 단계를 정리하면 다음과 같습니다.
1. 특성을 선택하고 훈련 샘플을 모읍니다.
2. 성능 지표를 선택합니다.
3. 분류 모델과 최적화 알고리즘을 선택합니다.
4. 모델의 성능을 평가합니다.
5. 알고리즘을 튜닝합니다.
책은 단계적으로 머신 러닝 지식을 배우도록 구성되어 있습니다. 이 장에서는 여러 알고리즘의 주요 개념에 주로 초점을 맞춥니다. 특성 선택, 성능 지표, 하이퍼파라미터 튜닝 같은 주제는 이어지는 장에서 자세히 살펴보겠습니다.
1 The Lack of A Priori Distinctions Between Learning Algorithms, Wolpert and David H, Neural Computation 8.7 (1996): 1341-1390