단순 임의 추출
단순 임의 추출(단순 무작위 추출)Simple Random Sampling은 전체 데이터에서 각 데이터를 추출할 확률을 동일하게 하여 표본을 추출하는 방법이다. 예를 들어, 항아리에 빨간색 공 30개와 파란색 공 70개를 섞어놓은 뒤 항아리를 보지 않으면서 공 10개를 꺼내는 경우를 생각해볼 수 있다. 이렇게 공을 꺼내면 각 공이 뽑힐 확률이 동일하므로 단순 임의 추출에 해당한다.
데이터를 추출하는 방법에는 복원 추출Sampling with Replacement과 비복원 추출Sampling without Replacement이 있다. 복원 추출은 한 번 추출된 표본을 다시 선택하는 것이 가능한 경우를 뜻하며, 비복원 추출은 한 번 추출한 표본은 다시 선택할 수 없는 경우를 말한다. 항아리에서 공을 뽑을 때, 공을 하나 뽑아 그 색깔을 확인한 뒤 다시 항아리에 넣은 다음 공을 뽑는 것을 반복하는 경우가 복원 추출이다. 반면 공을 하나 뽑아 색깔을 확인한 뒤 그 공은 꺼내둔 채로 다른 공들을 항아리에서 계속 뽑는 경우가 비복원 추출이다.
단순 임의 추출은 sample( )3 함수를 사용한다.
sample : 표본 추출을 수행한다. |
sample( x, # 표본을 뽑을 데이터 벡터. 만약 길이 1인 숫자 n이 지정되면 1:n에서 표본이 선택된다. size, # 표본의 크기 replace=FALSE, # 복원 추출4 여부 # 데이터가 뽑힐 가중치. 예를 들어, x=c(1, 2, 3)에서 2개의 표본을 뽑되 각 표본이 뽑힐 확률을 # 50%, 20%, 30%로 하고자 한다면 size=2, prob=c(5, 2, 3)을 지정한다. # prob나 prob에 지정한 값의 합이 1일 필요는 없다. prob=NULL ) 반환 값은 표본을 저장한 길이 size인 벡터다. |
1에서 10까지의 수에서 5개를 비복원 추출로 뽑아보자.
> sample(1:10, 5)
[1] 4 5 6 10 9
1에서 10까지의 수에서 복원 추출로 5개의 표본을 뽑아보자. 복원 추출이므로 같은 값이 여러 번 뽑힐 수 있다. 한 가지 예로 다음 결과를 보면 3이 두 번 뽑힌 것을 볼 수 있다.
> sample(1:10, 5, replace=TRUE)
[1] 3 4 3 10 7
3 ‘4.5.3 sampleBy( )’ 절에서 sample( ), sampleBy( )를 설명한 바 있다.
4 한 번 뽑힌 데이터가 다시 뽑힐 수 있는 경우를 복원 추출, 한 번 뽑힌 데이터는 다시 뽑힐 수 없는 경우를 비복원 추출이라 한다.