의사 결정 나무는 이미 정해진 의사 결정 규칙(decision rule)을 적용하기보다는 주어진 데이터를 사용해서 의사 결정 규칙을 나무 형태(분기, 노드(node))로 분류해 나간다는 차이가 있습니다. 즉, 데이터를 최적의 형태로 분류해 주는 것이 의사 결정 나무입니다. 의사 결정 나무는 구조가 간단하고 직관적이며 이해하기 쉽기 때문에 대표적인 지도 학습5 데이터 마이닝 기법으로 자리 잡았습니다.
의사 결정 나무를 사용하려면 의사 결정을 판단할 데이터와 결과 데이터가 있어야 합니다. 전자를 종속 변수의 원인이 되는 ‘독립 변수’라고 하며, 후자를 독립 변수로 결정된 ‘종속 변수’라고 합니다.6 쉽게 말하면 이미 일어난 일들을 정리해서 독립 변수와 종속 변수로 구분하고, 이에 대해 의사 결정 나무 분석 기법을 적용해서 어떤 독립 변수가 얼마큼의 영향력(분류)으로 종속 변수에 영향을 주었는지 확인하는 기법입니다. 예를 들어 어떤 회사 고객의 이탈 분류 모델에서 독립 변수와 종속 변수는 다음 그림과 같이 사용할 수 있습니다.
그림 9-16 | 이탈 분류 모델에서 독립 변수와 종속 변수
독립 변수인 나이, 소득, 성별, 매출, 직업군이 종속 변수인 유지와 이탈에 얼마큼 영향을 주었는지 알고자 할 때 사용할 수 있는 예시입니다.
5 데이터 학습을 이용하여 추론하는 모델을 얻는 기법을 의미합니다.
6 독립 변수와 종속 변수를 설명 변수와 반응 변수라고도 합니다.