더북(TheBook)

7.1 앙상블 학습

앙상블 학습(ensemble learning)의 목표는 여러 분류기를 하나의 메타 분류기로 연결하여 개별 분류기보다 더 좋은 일반화 성능을 달성하는 것입니다. 예를 들어 10명의 전문가로부터 예측을 얻을 수 있다고 가정해 보죠. 앙상블 방법은 전문가 10명의 예측을 묶어 전문가 1명보다 더 정확하고 안정된 예측을 만들 수 있습니다. 이 장에서 보겠지만 앙상블 분류기를 만드는 방법에는 여러 가지가 있습니다. 이 절에서는 앙상블의 작동 원리와 높은 일반화 성능을 내는 이유에 대해 알아보겠습니다.

이 장에서는 가장 인기 있는 앙상블 방법인 과반수 투표(majority voting) 방식을 집중해서 다루겠습니다. 과반수 투표는 분류기의 과반수가 예측한 클래스 레이블을 선택하는 단순한 방법입니다. 즉, 50% 이상 투표를 받은 클래스 레이블을 선택합니다. 엄밀히 말하면 과반수 투표란 용어는 이진 클래스 분류에 해당하지만 다중 클래스 문제에도 쉽게 일반화할 수 있습니다. 이를 다수결 투표(plurality voting)라고 합니다. 이때는 가장 많은 투표(최빈값(mode))를 받은 클래스 레이블을 선택하면 됩니다. 그림 7-1에 과반수 투표와 다수결 투표의 개념을 나타냈습니다. 이 앙상블은 열 개의 분류기로 구성되어 있고 각각의 심벌(삼각형, 사각형, 원)은 고유한 클래스 레이블을 나타냅니다.1

▲ 그림 7-1 과반수 투표와 다수결 투표

 

 


  1 역주 이 장은 분류 모델의 앙상블 다루지만 대부분의 앙상블 알고리즘은 회귀 모델도 지원합니다. 회귀 모델의 앙상블일 경우에는 추정기의 예측을 평균하여 최종 예측을 만듭니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.