더북(TheBook)

랜덤 포레스트 알고리즘 사용하기

랜덤 포레스트 알고리즘은 여러 결정 트리를 묶어 편향과 분산을 낮추는 앙상블 기법입니다.

 

랜덤 포레스트 모델 훈련하기

이 알고리즘은 전체 훈련 데이터 중 샘플 N개로 구성된 하위 훈련 데이터를 m개 생성합니다. 이 하위 훈련 데이터는 입력 데이터의 행과 열을 무작위로 샘플링하여 만듭니다. 이를 이용해 랜덤 포레스트 알고리즘은 독립된 결정 트리 m개를 훈련합니다. 이 분류 트리들을 C1, C2, …, Cm으로 지칭하겠습니다.

 

랜덤 포레스트 모델로 예측하기

훈련된 트리들은 각자 라벨을 예측합니다. 랜덤 포레스트 알고리즘은 개별 예측 결과를 모아서 최종 예측 결과를 출력합니다.

▲ 그림 7-5 랜덤 포레스트 알고리즘

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.