더북(TheBook)

레코드 m개가 A 영역에 포함되어 있다면 엔트로피는 다음 식으로 정의됩니다.

예를 들어 동전을 두 번 던져 앞면이 나올 확률이 1/4이고 뒷면이 나올 확률이 3/4일 때, 엔트로피는 다음과 같습니다.

 

지니 계수(Gini index)

불순도를 측정하는 지표로, 데이터의 통계적 분산 정도를 정량화해서 표현한 값입니다. 즉, 지니 계수는 원소 n개 중에서 임의로 두 개를 추출했을 때, 추출된 두 개가 서로 다른 그룹에 속해 있을 확률을 의미합니다.

지니 계수는 다음 공식으로 구할 수 있으며, 지니 계수가 높을수록 데이터가 분산되어 있음을 의미합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.