더북(TheBook)

예를 들어 동전을 두 번 던져 앞면이 나올 확률이 1/4이고 뒷면이 나올 확률이 3/4일 때, 엔트로피는 다음과 같습니다.

 

지니 계수(Gini index)

불순도를 측정하는 지표로, 데이터의 통계적 분산 정도를 정량화해서 표현한 값입니다. 즉, 지니 계수는 원소 n개 중에서 임의로 두 개를 추출했을 때, 추출된 두 개가 서로 다른 그룹에 속해 있을 확률을 의미합니다.

지니 계수는 다음 공식으로 구할 수 있으며, 지니 계수가 높을수록 데이터가 분산되어 있음을 의미합니다.

지니 계수는 로그를 계산할 필요가 없어 엔트로피보다 계산이 빠르기 때문에 결정 트리에서 많이 사용합니다.

그럼 코드로 자세히 살펴보겠습니다. 이 예제의 목표는 타이타닉 승객의 생존 여부를 예측하는 것입니다.

▲ 그림 3-15 결정 트리 예제

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.