랜덤 포레스트는 결정 트리만큼 해석이 쉽지는 않지만 하이퍼파라미터 튜닝에 많은 노력을 기울이지 않아도 되는 것이 큰 장점입니다. 일반적으로 랜덤 포레스트는 가지치기할 필요가 없습니다. 앙상블 모델이 개별 결정 트리의 예측을 평균하는 데서 오는 잡음으로부터 매우 안정되어 있기 때문입니다. 실전에서 신경 써야 할 파라미터는 랜덤 포레스트가 만들 트리 개수(단계 3) 하나입니다. 일반적으로 트리 개수가 많을수록 계산 비용이 증가하는 만큼 랜덤 포레스트 분류기의 성능이 좋아집니다.
실전에서 자주 사용되지는 않지만 랜덤 포레스트 분류기에서 최적화할 만한 다른 하이퍼파라미터는 부트스트랩 샘플의 크기 n(단계 1)과 각 분할에서 무작위로 선택할 특성 개수 d(단계 2- a)입니다. 하이퍼파라미터를 튜닝하는 기법은 6장에서 설명하겠습니다. 부트스트랩 샘플의 크기 n을 사용하면 랜덤 포레스트의 편향 -분산 트레이드오프를 조절할 수 있습니다.
부트스트랩 샘플 크기가 작아지면 개별 트리의 다양성이 증가합니다. 특정 훈련 샘플이 부트스트랩 샘플에 포함될 확률이 낮기 때문입니다. 결국 부트스트랩 샘플 크기가 감소하면 랜덤 포레스트의 무작위성이 증가하고 과대적합의 영향이 줄어듭니다. 일반적으로 부트스트랩 샘플이 작을수록 랜덤 포레스트의 전체적인 성능이 줄어듭니다. 훈련 성능과 테스트 성능 사이에 격차가 작아지지만 전체적인 테스트 성능이 감소하기 때문입니다. 반대로 부트스트랩 샘플 크기가 증가하면 과대적합 가능성이 늘어납니다. 부트스트랩 샘플과 개별 결정 트리가 서로 비슷해지기 때문에 원본 훈련 데이터셋에 더 가깝게 학습됩니다.