UNIT 06에서는 의사 결정 나무 기법을 이용하여 어떤 고객들이 스테이크를 구입하는지 알아보겠습니다. 독립 변수로 고객의 남녀 성별 정보, 방문 횟수, 총 방문객 수, 매출을 사용하고 종속 변수로 스테이크 주문 여부를 사용하겠습니다. 즉, 독립 변수들이 스테이크 주문에 얼마큼 영향을 주는지 알아보는 분석입니다. 종속 변수와 독립 변수 데이터셋을 따로 만든 후, 하나의 데이터셋으로 합쳐서 의사 결정 나무 기법을 적용하기 위한 최종 데이터셋으로 사용하겠습니다. 지금부터는 그 과정입니다.
①-1 데이터 처리하기: 고객별 스테이크 주문 여부(종속 변수 생성)
종속 변수를 만들어 보겠습니다.
# 고객별 스테이크 주문 여부 확인 # (A) 모든 고객의 예약 번호 데이터셋 생성 df_rsv_customer <- reservation_r %>% select(customer_id, reserv_no) %>% # 고객별 모든 예약 번호 선택 arrange(customer_id, reserv_no) head(df_rsv_customer) # 고객별 예약 번호 확인
코드를 실행하면 다음과 같습니다.
# A tibble: 6 x 2 # Groups: customer_id [3] customer_id reserv_no <chr> <chr> 1 W1327595 2019061801 2 W1327595 2019071801 3 W1327803 2019060301 4 W1327803 2019091506 5 W1328432 2019060601 6 W1328432 2019060701
고객별로 예약 번호를 그룹화