더북(TheBook)

다음은 sample_frac() 함수를 사용하여 order_info_r 테이블에서 샘플 데이터를 추출하는 예시입니다.6

order_info_r %>% sample_frac(0.1, replace = TRUE)

# A tibble: 39 x 5
    order_no            item_id  reserv_no  quantity   sales
    <chr>               <chr>    <chr>         <dbl>   <dbl>
 1  191121137367610000  M0009    2019112101      16   128000
 2  190712372390100000  M0002    2019071201       2    24000
 3  191018678406100000  M0005    2019101802       2    70000
 4  190813678322100000  M0002    2019081302       2    24000
 5  191231567834710000  M0006    2019123102       4   100000
 6  190903578398100000  M0005    2019090302       2    70000
 7  191129578571100000  M0006    2019112907       3    75000
 8  191207137419810000  M0003    2019120701       3    51000
 9  190801607249810000  M0006    2019080101       2    50000
10  191209674238100000  M0001    2019120901       9   216000
# ... with 29 more rows

 

order_info_r 테이블에는 행이 총 391개 있는데 0.1(10%) 비율로, 또 replace = TRUE 옵션을 설정하여 복원 추출 방식으로 샘플을 추출했습니다(39개). 랜덤 추출이기 때문에 실행할 때마다 샘플을 뽑는 결과가 달라집니다. 여기에서 복원 추출은 최초 추출했던 샘플을 다시 추출할 수 있는 방식이고, 비복원 추출은 추출했던 샘플을 제외하고 추출하는 방식입니다. sample_n() 함수는 비율 대신 행 개수로 추출한다는 점 외에 사용법은 동일합니다.

 

 


6 코드의 결괏값은 매번 다르게 나옵니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.