더북(TheBook)

12 배깅

 

배깅(bagging)은 데이터 세트를 여러 개로 분리해 분류를 실행하는 방법입니다. 보팅과 차이점은 하나의 알고리즘을 사용한다는 것이고, 부스팅과 차이점은 각 분류기를 제각각 따로따로 분류한다는 것입니다. 배깅 방식은 단일 분류기를 여러 번 사용함으로써 정확도를 높이고 과적합을 방지하는 효과가 있습니다.

분류기를 n번 반복해서 학습한다면 그때마다 학습셋, 데이터셋을 새롭게 만듭니다. 맨 처음 데이터가 n번의 서로 다른 학습셋, 데이터셋으로 분리될 때는 부트스트랩(bootstrap) 기법을 사용합니다. 이는 학습셋과 테스트셋을 설정 기준에 따라 랜덤으로 선택해 만들어 주는 방법입니다.

 

 

분류기로 서포트 벡터 머신을 이용한 배깅 알고리즘은 다음과 같이 구현됩니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.