더북(TheBook)

구해진 ROC 곡선에서 보듯이 앙상블 분류기는 테스트 데이터셋에서도 좋은 성능을 냅니다(ROC AUC = 0.95). 로지스틱 회귀도 같은 데이터에서 비슷한 성능을 내고 있습니다. 이는 아마도 작은 데이터셋에서 생기는 높은 분산 때문입니다(이 경우 데이터셋을 어떻게 나누었는지에 민감합니다).

▲ 그림 7-4 앙상블 분류기와 개별 분류기의 ROC 비교

이 분류 문제에서는 두 개의 특성만 선택했기 때문에 앙상블의 결정 경계가 어떤 모습인지 확인해 볼 수 있습니다.

사실 로지스틱 회귀와 k-최근접 이웃 파이프라인에 이미 전처리 단계가 포함되어 있기 때문에 모델 훈련 전에 따로 특성을 표준화할 필요는 없습니다. 여기서는 결정 트리의 결정 경계를 다른 모델과 같은 스케일로 나타내기 위해 사용했습니다. 코드는 다음과 같습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.