더북(TheBook)

루트 노드를 보면 맨 처음 105개의 샘플로 시작합니다. 첫 번째 분할은 꽃받침 너비 ≤ 0.75cm 기준을 사용하여 루트 노드를 35개(왼쪽 자식 노드)와 70개(오른쪽 자식 노드)의 두 자식 노드로 분할합니다. 첫 번째 분할로 왼쪽 자식 노드는 이미 Iris-setosa 클래스의 샘플만 가진 순수 노드가 되었습니다(지니 불순도 = 0). 오른쪽에서 분할이 더 일어나 Iris-versicolorIris-virginica 클래스의 샘플을 구분합니다.

이 트리와 트리의 결정 영역 그래프를 보면 이 결정 트리가 붓꽃 클래스를 구분하는 일을 잘 수행한다는 것을 알 수 있습니다. 아쉽지만 사이킷런은 현재 결정 트리를 수동으로 사후 가지치기할 수 있는 기능을 제공하지 않습니다. 이전 코드 예제에서 결정 트리의 max_depth3으로 바꾸고 현재 모델과 비교해 보세요. 관심 있는 독자를 위해 예제로 남겨 놓겠습니다.

또는 사이킷런은 비용 복잡도 사후 가지치기를 제공합니다. 이 고급 주제에 대해 관심이 있다면 다음 튜토리얼을 참고하세요.

https://scikit-learn.org/stable/auto_examples/tree/plot_cost_complexity_pruning.html

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.