3.6.2 결정 트리 만들기
결정 트리는 특성 공간을 사각 격자로 나누기 때문에 복잡한 결정 경계를 만들 수 있습니다. 결정 트리가 깊어질수록 결정 경계가 복잡해지고 과대적합되기 쉽기 때문에 주의해야 합니다. 사이킷런을 사용하여 지니 불순도 조건으로 최대 깊이가 4인 결정 트리를 훈련해 보겠습니다.
결정 트리 알고리즘은 특성의 스케일을 조정할 필요가 없지만 그래프 표현을 위해 조정할 수도 있습니다. 코드는 다음과 같습니다.
Note ≡
역주 DecisionTreeClassifier의 criterion 매개변수 기본값은 지니 불순도를 의미하는 'gini'입니다. 그 외 엔트로피 불순도를 나타내는 'entropy'를 지정할 수 있습니다.
max_depth의 기본값은 None으로 모든 리프 노드가 순수해질 때까지 트리가 성장합니다. 노드 분할을 위해 고려할 특성의 개수를 지정하는 max_features 기본값은 None으로 전체 특성을 사용합니다. 이 매개변수에 특성의 개수나 특성의 비율을 지정할 수 있으며 'auto'와 'sqrt'로 지정하면 특성 개수의 제곱근을 사용하고 'log2'로 지정하면 특성 개수의 이진 로그 값을 사용합니다.