머신 러닝 교과서 with 파이썬, 사이킷런, 텐서플로(개정 3판): 7.3.1 배깅 알고리즘의 작동 방식

7.3.1 배깅 알고리즘의 작동 방식

배깅 분류기의 부트스트랩 샘플링의 작동 방식을 확실히 이해하기 위해 그림 7-7에 나오는 예를 생각해 보죠. 다음에 (1에서 7까지 인덱스가 부여된) 일곱 개의 훈련 샘플이 있습니다. 배깅 단계마다 중복을 허용하여 랜덤하게 샘플링됩니다. 각각의 부트스트랩 샘플을 사용하여 분류기 C_j를 학습합니다. 일반적으로 가지치기하지 않는 결정 트리를 분류기로 사용합니다.

그림 7-7에서 볼 수 있듯이 각 분류기는 훈련 데이터셋에서 추출한 랜덤한 부분 집합을 사용합니다. 배깅을 통해 얻은 이 랜덤한 샘플을 배깅 1, 배깅 2 등으로 표시했습니다. 중복을 허용한 샘플링을 하기 때문에 각 부분 집합에는 일부가 중복되어 있고 원본 샘플 중 일부는 포함되어 있지 않습니다. 개별 분류기가 부트스트랩 샘플에 학습되고 나면 다수결 투표를 사용하여 예측을 모읍니다.

▲ 그림 7-7 부트스트랩 샘플링의 작동 방식

배깅은 3장에서 소개한 랜덤 포레스트 분류기와도 관련이 있습니다. 사실 랜덤 포레스트는 개별 결정 트리를 학습할 때 랜덤하게 특성의 부분 집합을 선택하는 배깅의 특별한 경우입니다.

Note ≡ 배깅을 사용한 모델 앙상블

1994년 레오 브레이만(Leo Breiman)이 기술 보고서에서 배깅을 처음 제안했습니다. 배깅으로 불안정한 모델의 정확도를 향상하고 과대적합의 정도를 감소시킬 수 있다는 것을 보였습니다. 배깅에 관해 더 자세히 알고 싶다면 온라인에 공개된 그의 리포트를 꼭 한 번 읽어 보세요.¹⁴

14 Bagging predictors, L. Breiman, Machine Learning, 24(2): 123-140, 1996

역주 이 논문은 다음 주소에서 읽을 수 있습니다. https://bit.ly/2q88MiO

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.