더북(TheBook)

Note ≡ 순도와 불순도


순도는 범주 안에서 같은 종류의 데이터만 모여 있는 상태이며, 불순도는 서로 다른 데이터가 섞여 있는 상태입니다.

▲ 그림 3-14 순도와 불순도

결정 트리에서 불확실성을 계산하는 방법은 두 가지입니다.

 

엔트로피(entropy)

확률 변수의 불확실성을 수치로 나타낸 것으로, 엔트로피가 높을수록 불확실성이 높다는 의미입니다. 즉, 엔트로피 값이 0과 0.5라고 가정할 때 다음 도출이 가능합니다.

엔트로피 = 0 = 불확실성 최소 = 순도 최대

엔트로피 = 0.5 = 불확실성 최대 = 순도 최소

레코드 m개가 A 영역에 포함되어 있다면 엔트로피는 다음 식으로 정의됩니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.