Note ≡ 중복을 허용한 샘플링과 중복을 허용하지 않는 샘플링
중복을 허용한(with replacement) 샘플링과 허용하지 않는(without replacement) 샘플링에 익숙하지 않은 사람들을 위해 간단한 사고 실험을 해 보겠습니다. 뽑기 상자에서 랜덤하게 숫자를 고르는 제비뽑기 게임을 가정해 보죠. 뽑기 상자에는 다섯 개의 고유한 숫자 0, 1, 2, 3, 4가 들어 있습니다. 차례마다 딱 하나의 숫자만 뽑습니다. 첫 번째 차례에서 상자에서 특정 숫자를 뽑을 확률은 1/5입니다. 중복을 허용하지 않는 샘플링에서는 숫자를 뽑은 후 다시 상자에 넣지 않습니다. 결과적으로 다음 차례에 남은 숫자에서 특정 숫자를 뽑을 확률은 이전에 뽑은 숫자에 따라 달라집니다. 예를 들어 남은 숫자가 0, 1, 2, 4라면 다음 차례에 0을 뽑을 확률은 1/4이 됩니다.
중복을 허용한 랜덤 샘플링에서는 항상 뽑은 숫자를 다시 상자에 넣습니다. 매 순서에서 특정 숫자를 뽑을 확률은 변하지 않게 됩니다. 동일한 숫자를 여러 번 뽑을 수 있습니다. 다른 말로 하면 중복을 허용한 샘플링은 샘플(숫자)이 독립적이고 공분산(covariance)이 0입니다. 예를 들어 랜덤한 뽑기를 다섯 번 진행하여 나온 결과는 다음과 같습니다.
• 중복을 허용하지 않는 랜덤 샘플링: 2, 1, 3, 4, 0
• 중복을 허용한 랜덤 샘플링: 1, 3, 3, 4, 1
랜덤 포레스트는 결정 트리만큼 해석이 쉽지는 않지만 하이퍼파라미터 튜닝에 많은 노력을 기울이지 않아도 되는 것이 큰 장점입니다. 일반적으로 랜덤 포레스트는 가지치기할 필요가 없습니다. 앙상블 모델이 개별 결정 트리가 만드는 잡음으로부터 매우 안정되어 있기 때문입니다. 실전에서 신경 써야 할 파라미터는 랜덤 포레스트가 만들 트리 개수(단계 3) 하나입니다. 일반적으로 트리 개수가 많을수록 계산 비용이 증가하는 만큼 랜덤 포레스트 분류기의 성능이 좋아집니다.
실전에서 자주 사용되지는 않지만 랜덤 포레스트 분류기에서 최적화할 만한 다른 하이퍼파라미터는 부트스트랩 샘플의 크기 n(단계 1)과 각 분할에서 무작위로 선택할 특성 개수 d(단계 2-a)입니다. 하이퍼파라미터를 튜닝하는 기법은 6장에서 설명하겠습니다. 부트스트랩 샘플의 크기 n을 사용하면 랜덤 포레스트의 편향 -분산 트레이드오프를 조절할 수 있습니다.