3.1.3 결정 트리
▼ 표 3-4 결정 트리를 사용하는 이유와 적용 환경
왜 사용할까? |
주어진 데이터에 대한 분류 |
언제 사용하면 좋을까? |
결정 트리는 이상치가 많은 값으로 구성된 데이터셋을 다룰 때 사용하면 좋습니다. 또한, 결정 과정이 시각적으로 표현되기 때문에 머신 러닝이 어떤 방식으로 의사 결정을 하는지 알고 싶을 때 유용합니다. |
결정 트리(decision tree)는 데이터를 분류하거나 결괏값을 예측하는 분석 방법입니다. 결과 모델이 트리 구조이기 때문에 결정 트리라고 합니다. 다음 그림은 결정 과정을 보여 줍니다.
▲ 그림 3-13 결정 트리 사례
결정 트리는 데이터를 1차로 분류한 후 각 영역의 순도(homogeneity)는 증가하고, 불순도(impurity)와 불확실성(uncertainty)은 감소하는 방향으로 학습을 진행합니다. 순도가 증가하고 불확실성이 감소하는 것을 정보 이론에서는 정보 획득(information gain)이라고 하며, 순도를 계산하는 방법에는 다음 두 가지를 많이 사용합니다.