더북(TheBook)

3. 리프 노드 여부 확인하기: 브랜치가 대부분 한 가지 클래스의 데이터 포인트로 구성된다면 해당 브랜치는 리프 노드가 됩니다.

4. 종료 조건 확인 및 반복하기: 종료 조건을 만족했다면 훈련이 종료되고 트리의 맨 밑에 자리한 노드는 리프 노드가 됩니다. 기본 종료 조건은 각 리프 노드에 속한 결과의 동질성이 특정 임곗값을 넘는 것입니다. 종료 조건으로 알고리즘 반복 횟수를 사용할 수도 있습니다. 종료 조건을 만족하지 않았다면 1단계로 되돌아갑니다.

다음 그림은 결정 트리 분류 알고리즘을 간략히 도식화한 것입니다.

▲ 그림 7-4 결정 트리 분류 알고리즘

이 그림에서 루트 노드는 여러 개의 O와 X를 가지고 있습니다. 결정 트리 분류 알고리즘은 O를 X에서 떼어낼 수 있는 조건들을 만들어냅니다. 각 레벨에서 직전 레벨보다 데이터의 동질성이 커지는 방향으로 데이터를 분할합니다. 완벽하게 훈련된 모델은 리프 노드에 O 또는 X만 가지고 있게 됩니다. 그러나 데이터에 내재된 무작위성 때문에 모델을 완벽하게 훈련하기란 매우 어렵습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.