테이블이 잘 조인된 것을 확인할 수 있습니다. 이제 고객별 성별, 방문 횟수, 방문객 수, 매출 값을 담은 독립 변수를 만들 차례입니다.
# 고객 정보, 성별 정보와 방문 횟수, 방문객 수, 매출 합을 요약(코드 풀이에서 자세히 설명) df_table_join_3 <- df_table_join_2 %>% group_by(customer_id, sex_code, reserv_no, visitor_cnt) %>% # ⓐ summarise(sales_sum = sum(sales)) %>% group_by(customer_id, sex_code) %>% # ⓑ summarise(visit_sum = n_distinct(reserv_no), visitor_sum = sum(visitor_cnt), sales_sum = sum(sales_sum) / 1000) %>% # ⓒ arrange(customer_id) df_idp_var <- df_table_join_3 # 독립 변수 df_idp_var # 독립 변수 확인(142행)
* 분석에 필요한 열만 그룹핑해서 정리합니다.
* 중복이 아닌 값을 카운팅하는 함수입니다. 여기에서는 중복이 아닌 주문 예약 번호를 셉니다. 즉, 방문 횟수라고 생각할 수 있습니다.
정리된 독립 변수 내용은 다음과 같습니다.
# A tibble: 142 x 5 # Groups: customer_id [142] customer_id sex_code visit_sum visitor_sum sales_sum <chr> <chr> <int> <dbl> <dbl> 1 W1327595 M 2 6 188 2 W1327803 M 2 6 210 3 W1328432 M 3 12 246 4 W1328505 F 5 15 287 5 W1328786 M 1 1 10 6 W1328985 M 2 6 178 7 W1328993 F 1 4 140 8 W1329560 M 1 2 24 9 W1329954 M 1 2 48 10 W1329962 M 2 4 48 # ... with 132 more rows