7.2.4 결정 트리 분류 알고리즘
결정 트리는 재귀 분할(recursive partitioning) 방식으로 라벨을 예측하는 규칙들을 생성합니다. 루트 노드에서 시작하는 결정 트리는 여러 개의 브랜치로 뻗어 나갑니다. 트리를 구성하는 노드는 특성을 이용한 의사결정을 의미하며, 노드에서 뻗어 나와 다음 단계로 이어지는 브랜치가 그 결과를 나타냅니다. 결정 트리의 가장자리에 위치한 리프 노드에는 최종 결정이 담겨 있습니다. 분할을 통해 더 이상 성능이 개선되지 않으면 훈련 프로세스가 종료됩니다.
결정 트리 분류 알고리즘 이해하기
결정 트리 분류 알고리즘의 특징은 사람이 이해할 수 있는 라벨 분류 규칙을 만들어낸다는 점입니다. 이 알고리즘은 재귀적으로 작동합니다. 결정 트리 분류 알고리즘은 다음과 같은 단계를 거쳐 규칙으로 구성된 계층 구조를 생성합니다.
1. 가장 중요한 특성 찾기: 결정 트리 분류 알고리즘은 훈련 데이터의 라벨을 가장 잘 분류할 수 있는 특성을 찾아냅니다. 정보 획득(information gain)이나 지니 불순도(Gini impurity)를 사용하여 특성을 탐색합니다.
2. 브랜치 나누기: 앞에서 찾아낸 가장 중요한 특성을 이용해 훈련 데이터를 두 브랜치로 나눕니다.
– 해당 특성을 만족하는 데이터 포인트
– 해당 특성을 만족하지 않는 데이터 포인트