더북(TheBook)

단계 2에서 각각의 결정 트리를 훈련할 때 조금 다른 점이 있습니다. 각 노드에서 최선의 분할을 찾기 위해 모든 특성을 평가하는 것이 아니라 랜덤하게 선택된 일부 특성만 사용합니다.

Note ≡ 중복을 허용한 샘플링과 중복을 허용하지 않는 샘플링


중복을 허용한(with replacement) 샘플링과 허용하지 않는(without replacement) 샘플링에 익숙하지 않은 사람들을 위해 간단한 사고 실험을 해 보겠습니다. 뽑기 상자에서 랜덤하게 숫자를 고르는 제비뽑기 게임을 가정해 보죠. 뽑기 상자에는 다섯 개의 고유한 숫자 0, 1, 2, 3, 4가 들어 있습니다. 차례마다 딱 하나의 숫자만 뽑습니다. 첫 번째 차례에서 상자에서 특정 숫자를 뽑을 확률은 1/5입니다. 중복을 허용하지 않는 샘플링에서는 숫자를 뽑은 후 다시 상자에 넣지 않습니다. 결과적으로 다음 차례에 남은 숫자에서 특정 숫자를 뽑을 확률은 이전에 뽑은 숫자에 따라 달라집니다. 예를 들어 남은 숫자가 0, 1, 2, 4라면 다음 차례에 0을 뽑을 확률은 1/4이 됩니다.

중복을 허용한 랜덤 샘플링에서는 항상 뽑은 숫자를 다시 상자에 넣습니다. 매 순서에서 특정 숫자를 뽑을 확률은 변하지 않게 됩니다. 동일한 숫자를 여러 번 뽑을 수 있습니다. 다른 말로 하면 중복을 허용한 샘플링은 샘플(숫자)이 독립적이고 공분산(covariance)이 0입니다. 예를 들어 랜덤한 뽑기를 다섯 번 진행하여 나온 결과는 다음과 같습니다.

중복을 허용하지 않는 랜덤 샘플링: 2, 1, 3, 4, 0

중복을 허용한 랜덤 샘플링: 1, 3, 3, 4, 1

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.