더북(TheBook)

지니 불순도는 잘못 분류될 확률을 최소화하기 위한 기준으로 이해할 수 있습니다.

엔트로피와 비슷하게 지니 불순도는 클래스가 완벽하게 섞여 있을 때 최대가 됩니다. 예를 들어 이진 클래스 환경(c = 2)에서는 다음과 같습니다.

실제로는 지니 불순도와 엔트로피 모두 매우 비슷한 결과가 나옵니다. 보통 불순도 조건을 바꾸어 트리를 평가하는 것보다 가지치기 수준을 바꾸면서 튜닝하는 것이 훨씬 낫습니다.

또 다른 불순도 지표는 분류 오차입니다.28

가지치기에는 좋은 기준이지만 결정 트리를 구성하는 데는 권장되지 않습니다. 노드의 클래스 확률 변화에 덜 민감하기 때문입니다. 그림 3-18에서 두 개의 분할 시나리오를 보면서 이를 알아보겠습니다.

▲ 그림 3-18 두 개의 분할 시나리오

 

 


28 역주 분류 오차 불순도 지표도 마찬가지로 두 클래스가 같은 비율일 때 최대(0.5)가 되고 한 클래스의 비율이 커질수록 줄어듭니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.