다음은 sample_frac() 함수를 사용하여 order_info_r 테이블에서 샘플 데이터를 추출하는 예시입니다.6
order_info_r %>% sample_frac(0.1, replace = TRUE) # A tibble: 39 x 5 order_no item_id reserv_no quantity sales <chr> <chr> <chr> <dbl> <dbl> 1 191121137367610000 M0009 2019112101 16 128000 2 190712372390100000 M0002 2019071201 2 24000 3 191018678406100000 M0005 2019101802 2 70000 4 190813678322100000 M0002 2019081302 2 24000 5 191231567834710000 M0006 2019123102 4 100000 6 190903578398100000 M0005 2019090302 2 70000 7 191129578571100000 M0006 2019112907 3 75000 8 191207137419810000 M0003 2019120701 3 51000 9 190801607249810000 M0006 2019080101 2 50000 10 191209674238100000 M0001 2019120901 9 216000 # ... with 29 more rows
order_info_r 테이블에는 행이 총 391개 있는데 0.1(10%) 비율로, 또 replace = TRUE 옵션을 설정하여 복원 추출 방식으로 샘플을 추출했습니다(39개). 랜덤 추출이기 때문에 실행할 때마다 샘플을 뽑는 결과가 달라집니다. 여기에서 복원 추출은 최초 추출했던 샘플을 다시 추출할 수 있는 방식이고, 비복원 추출은 추출했던 샘플을 제외하고 추출하는 방식입니다. sample_n() 함수는 비율 대신 행 개수로 추출한다는 점 외에 사용법은 동일합니다.
6 코드의 결괏값은 매번 다르게 나옵니다.