더북(TheBook)

의사 결정 나무 모델

의사 결정 나무는 데이터의 특징에 대한 질문을 하면서 응답에 따라 데이터를 분류해가는 알고리즘이다. 예를 들어, 그림 10-1은 다양한 도형을 분류하는 의사 결정 나무의 예다.

그림 10-1 의사 결정 나무의 예
그림 10-1 의사 결정 나무의 예

그림 10-1에서 검은색 원은 나무의 최상단으로부터 “사각형인가?”라는 질문에 No, “원인가?”라는 질문에 Yes, “검은색인가?”라는 질문에 Yes라는 대답에 의해 검은색 원만 포함된 그룹으로 분류된다. 마찬가지로 흰색 삼각형은 “사각형인가?”라는 질문에 No, “원인가?”라는 질문에 No라는 대답에 의해 흰색 삼각형만 포함된 그룹으로 분류된다.

각 단계에서의 질문은 상위 단계의 질문과 연관성이 있다. 예를 들어, 검은색 원을 분류해내는 마지막 질문인 “검은색인가?”라는 질문은 “원인가?”라는 질문에 대한 대답이 Yes인 경우에 이어지는 질문이다. 따라서 “검은색인가?”라는 질문은 모양에 대한 질문과 연관성이 있다. 이런 특징 때문에 나무 모델은 피처의 연관성을 잘 표현한다고 한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.