Note ≡ 순도와 불순도
순도는 범주 안에서 같은 종류의 데이터만 모여 있는 상태이며, 불순도는 서로 다른 데이터가 섞여 있는 상태입니다.
▲ 그림 3-14 순도와 불순도
결정 트리에서 불확실성을 계산하는 방법은 두 가지입니다.
엔트로피(entropy)
확률 변수의 불확실성을 수치로 나타낸 것으로, 엔트로피가 높을수록 불확실성이 높다는 의미입니다. 즉, 엔트로피 값이 0과 0.5라고 가정할 때 다음 도출이 가능합니다.
엔트로피 = 0 = 불확실성 최소 = 순도 최대
엔트로피 = 0.5 = 불확실성 최대 = 순도 최소
레코드 m개가 A 영역에 포함되어 있다면 엔트로피는 다음 식으로 정의됩니다.