이진 결정 트리에 널리 사용되는 세 개의 불순도 지표 또는 분할 조건은 지니 불순도(Gini impurity, IG), 엔트로피(entropy, IH), 분류 오차(classification error, IE)입니다. 샘플이 있는 모든 클래스()에 대한 엔트로피 정의는 다음과 같습니다.
여기에서 는 특정 노드 t에서 클래스 i에 속한 샘플 비율입니다. 한 노드의 모든 샘플이 같은 클래스이면 엔트로피는 0이 됩니다. 클래스 분포가 균등하면 엔트로피는 최대가 됩니다. 예를 들어 이진 클래스일 경우 또는 이면 엔트로피는 0입니다. 클래스가 와 처럼 균등하게 분포되어 있으면 엔트로피는 1이 됩니다. 엔트로피 조건을 트리의 상호 의존 정보를 최대화하는 것으로 이해할 수 있습니다.22
그래프를 통해 직관적으로 이해하기 위해 다음 코드를 통해 다양한 클래스 확률에 대한 엔트로피 값을 시각화해 보겠습니다.