더북(TheBook)

03 | 의사 결정 나무

의사 결정 나무Tree Models[4]는 지니 불순도Gini Impurity 또는 정보 이득Information Gain 등의 기준을 사용하여 노드를 재귀적으로 분할하면서 나무 모델을 만드는 방법이다. 의사 결정 나무는 if-else의 조건문과 같은 형식이어서 이해하기 쉽고 속도가 빠르며, 여러 가지 피처 간의 상호 작용을 잘 표현해주고 다양한 데이터 유형에 사용할 수 있다는 장점이 있다. 특히 나무 모델 중 랜덤 포레스트Random Forest는 꽤 괜찮은 성능을 보여주어 기계 학습 대회가 열리는 Kaggle(http://www.kaggle.com/)에서도 가장 기본이 되는 알고리즘으로 자주 제시된다.

이 절에서는 의사 결정 나무의 기본 개념을 살펴보고 rpart, ctree, randomForest 패키지를 사용한 모델링 및 예측에 대해 알아본다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.