지니 계수는 로그를 계산할 필요가 없어 엔트로피보다 계산이 빠르기 때문에 결정 트리에서 많이 사용합니다.
그럼 코드로 자세히 살펴보겠습니다. 이 예제의 목표는 타이타닉 승객의 생존 여부를 예측하는 것입니다.
▲ 그림 3-15 결정 트리 예제
먼저 필요한 데이터를 불러오겠습니다. 데이터는 내려받은 예제 파일의 data 폴더에 있는 train.csv 파일을 사용합니다.7
코드 3-9 라이브러리 호출 및 데이터 준비
import pandas as pd
df = pd.read_csv('../chap03/data/titanic/train.csv', index_col='PassengerId') ------ 판다스를 이용하여 train.csv 파일을 로드해서 df에 저장
print(df.head()) ------ train.csv 데이터의 상위 행 다섯 개를 출력