더북(TheBook)

단순 임의 추출

단순 임의 추출(단순 무작위 추출)Simple Random Sampling은 전체 데이터에서 각 데이터를 추출할 확률을 동일하게 하여 표본을 추출하는 방법이다. 예를 들어, 항아리에 빨간색 공 30개와 파란색 공 70개를 섞어놓은 뒤 항아리를 보지 않으면서 공 10개를 꺼내는 경우를 생각해볼 수 있다. 이렇게 공을 꺼내면 각 공이 뽑힐 확률이 동일하므로 단순 임의 추출에 해당한다.

데이터를 추출하는 방법에는 복원 추출Sampling with Replacement과 비복원 추출Sampling without Replacement이 있다. 복원 추출은 한 번 추출된 표본을 다시 선택하는 것이 가능한 경우를 뜻하며, 비복원 추출은 한 번 추출한 표본은 다시 선택할 수 없는 경우를 말한다. 항아리에서 공을 뽑을 때, 공을 하나 뽑아 그 색깔을 확인한 뒤 다시 항아리에 넣은 다음 공을 뽑는 것을 반복하는 경우가 복원 추출이다. 반면 공을 하나 뽑아 색깔을 확인한 뒤 그 공은 꺼내둔 채로 다른 공들을 항아리에서 계속 뽑는 경우가 비복원 추출이다.

단순 임의 추출은 sample( )3 함수를 사용한다.

표 7-7 단순 임의 추출

sample : 표본 추출을 수행한다.

sample(
  x,    # 표본을 뽑을 데이터 벡터. 만약 길이 1인 숫자 n이 지정되면 1:n에서 표본이 선택된다.
  size, # 표본의 크기
  replace=FALSE, # 복원 추출4 여부
  # 데이터가 뽑힐 가중치. 예를 들어, x=c(1, 2, 3)에서 2개의 표본을 뽑되 각 표본이 뽑힐 확률을
  # 50%, 20%, 30%로 하고자 한다면 size=2, prob=c(5, 2, 3)을 지정한다.
  # prob prob에 지정한 값의 합이 1일 필요는 없다.
  prob=NULL
)

반환 값은 표본을 저장한 길이 size인 벡터다.

1에서 10까지의 수에서 5개를 비복원 추출로 뽑아보자.

> sample(1:10, 5)
[1] 4 5 6 10 9

1에서 10까지의 수에서 복원 추출로 5개의 표본을 뽑아보자. 복원 추출이므로 같은 값이 여러 번 뽑힐 수 있다. 한 가지 예로 다음 결과를 보면 3이 두 번 뽑힌 것을 볼 수 있다.

> sample(1:10, 5, replace=TRUE)
[1] 3 4 3 10 7

3 ‘4.5.3 sampleBy( )’ 절에서 sample( ), sampleBy( )를 설명한 바 있다.

4 한 번 뽑힌 데이터가 다시 뽑힐 수 있는 경우를 복원 추출, 한 번 뽑힌 데이터는 다시 뽑힐 수 없는 경우를 비복원 추출이라 한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.