더북(TheBook)

Note ≡


역주 max_depth 외에 사이킷런의 결정 트리에서 지원하는 대표적인 사전 가지치기 설정은 다음과 같습니다.

max_leaf_nodes: 리프 노드의 최대 개수를 지정합니다. 기본값은 None으로 제한이 없습니다.

min_samples_leaf: 리프 노드가 되기 위한 최소 샘플 개수나 샘플의 비율을 지정합니다. 기본값은 1입니다.

min_samples_split: 노드 분할을 위한 최소 샘플 개수나 샘플의 비율을 지정합니다. 기본값은 2입니다.

min_impurity_decrease: 노드 분할이 감소시킬 최소 불순도를 지정합니다. 기본값은 0입니다.

min_weight_fraction_leaf: 리프 노드가 되기 위한 모든 입력 샘플의 가중치 합에 대한 최소 비율을 지정합니다. 기본값은 0입니다. 만약 fit() 메서드에서 sample_weight 매개변수를 지정하지 않으면 모든 샘플의 가중치는 같습니다.

 

감소되는 불순도 크기는 (현재 노드의 불순도) * (현재 노드의 샘플 개수) - (오른쪽 자식 노드의 불순도) * (오른쪽 자식 노드의 샘플 개수) - (왼쪽 자식 노드의 불순도) * (왼쪽 자식 노드의 샘플 개수)를 계산한 후 전체 샘플 개수로 나누어 구합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.