7.3.1 배깅 알고리즘의 작동 방식
배깅 분류기의 부트스트랩 샘플링의 작동 방식을 확실히 이해하기 위해 그림 7-7에 나오는 예를 생각해 보죠. 다음에 (1에서 7까지 인덱스가 부여된) 일곱 개의 훈련 샘플이 있습니다. 배깅 단계마다 중복을 허용하여 랜덤하게 샘플링됩니다. 각각의 부트스트랩 샘플을 사용하여 분류기 Cj를 학습합니다. 일반적으로 가지치기하지 않는 결정 트리를 분류기로 사용합니다.
그림 7-7에서 볼 수 있듯이 각 분류기는 훈련 데이터셋에서 추출한 랜덤한 부분 집합을 사용합니다. 배깅을 통해 얻은 이 랜덤한 샘플을 배깅 1, 배깅 2 등으로 표시했습니다. 중복을 허용한 샘플링을 하기 때문에 각 부분 집합에는 일부가 중복되어 있고 원본 샘플 중 일부는 포함되어 있지 않습니다. 개별 분류기가 부트스트랩 샘플에 학습되고 나면 다수결 투표를 사용하여 예측을 모읍니다.
▲ 그림 7-7 부트스트랩 샘플링의 작동 방식
배깅은 3장에서 소개한 랜덤 포레스트 분류기와도 관련이 있습니다. 사실 랜덤 포레스트는 개별 결정 트리를 학습할 때 랜덤하게 특성의 부분 집합을 선택하는 배깅의 특별한 경우입니다.
Note ≡ 배깅을 사용한 모델 앙상블
1994년 레오 브레이만(Leo Breiman)이 기술 보고서에서 배깅을 처음 제안했습니다. 배깅으로 불안정한 모델의 정확도를 향상하고 과대적합의 정도를 감소시킬 수 있다는 것을 보였습니다. 배깅에 관해 더 자세히 알고 싶다면 온라인에 공개된 그의 리포트를 꼭 한 번 읽어 보세요.14
14 Bagging predictors, L. Breiman, Machine Learning, 24(2): 123-140, 1996
역주 이 논문은 다음 주소에서 읽을 수 있습니다. https://bit.ly/2q88MiO