머신 러닝 교과서: 파이토치 편: 4.6 랜덤 포레스트의 특성 중요도 사용

500개의 결정 트리에서 평균적인 불순도 감소를 기반으로 이 데이터셋에서 가장 판별력이 좋은 특성은 Proline, Flavanoids, Color intensity, OD280/OD315 of diluted wines, Alcohol입니다. 재미있게도 이 그래프에서 높은 순위에 위치한 특성 중 두 개는 이전 절에서 구현한 SBS 알고리즘으로 선택한 세 개의 특성에 들어 있습니다(Alcohol과 OD280/OD315 of diluted wines).

모델 해석을 중요하게 고려한다면 랜덤 포레스트 기법에서 언급할 만한 중요한 참고 사항이 있습니다. 랜덤 포레스트에서 두 개 이상의 특성이 매우 상관관계가 높다면 하나의 특성은 매우 높은 순위를 갖지만 다른 특성 정보는 완전히 잡아내지 못할 수 있습니다. 특성 중요도 값을 해석하는 것보다 모델의 예측 성능에만 관심이 있다면 이 문제를 신경 쓸 필요는 없습니다.

특성 중요도에 관한 이 절을 마무리하기 위해 사이킷런의 SelectFromModel을 살펴보겠습니다. 이 클래스는 모델 훈련이 끝난 후 사용자가 지정한 임계 값을 기반으로 특성을 선택합니다.¹⁹ ²⁰

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.