랜덤 포레스트 알고리즘 사용하기
랜덤 포레스트 알고리즘은 여러 결정 트리를 묶어 편향과 분산을 낮추는 앙상블 기법입니다.
랜덤 포레스트 모델 훈련하기
이 알고리즘은 전체 훈련 데이터 중 샘플 N개로 구성된 하위 훈련 데이터를 m개 생성합니다. 이 하위 훈련 데이터는 입력 데이터의 행과 열을 무작위로 샘플링하여 만듭니다. 이를 이용해 랜덤 포레스트 알고리즘은 독립된 결정 트리 m개를 훈련합니다. 이 분류 트리들을 C1, C2, …, Cm으로 지칭하겠습니다.
랜덤 포레스트 모델로 예측하기
훈련된 트리들은 각자 라벨을 예측합니다. 랜덤 포레스트 알고리즘은 개별 예측 결과를 모아서 최종 예측 결과를 출력합니다.
▲ 그림 7-5 랜덤 포레스트 알고리즘