더북(TheBook)

테이블이 잘 조인된 것을 확인할 수 있습니다. 이제 고객별 성별, 방문 횟수, 방문객 수, 매출 값을 담은 독립 변수를 만들 차례입니다.

# 고객 정보, 성별 정보와 방문 횟수, 방문객 수, 매출 합을 요약(코드 풀이에서 자세히 설명)
df_table_join_3 <- df_table_join_2 %>%
    group_by(customer_id, sex_code, reserv_no, visitor_cnt) %>% # 
    summarise(sales_sum = sum(sales)) %>%
    group_by(customer_id, sex_code) %>%                         # ⓑ
    summarise(visit_sum = n_distinct(reserv_no), visitor_sum = sum(visitor_cnt), sales_sum = sum(sales_sum) / 1000) %>%     # ⓒ
    arrange(customer_id)

df_idp_var <- df_table_join_3   # 독립 변수

df_idp_var                      # 독립 변수 확인(142행)

* 분석에 필요한 열만 그룹핑해서 정리합니다.

* 중복이 아닌 값을 카운팅하는 함수입니다. 여기에서는 중복이 아닌 주문 예약 번호를 셉니다. 즉, 방문 횟수라고 생각할 수 있습니다.

 

정리된 독립 변수 내용은 다음과 같습니다.

# A tibble: 142 x 5
# Groups: customer_id [142]
    customer_id  sex_code  visit_sum  visitor_sum  sales_sum
    <chr>        <chr>         <int>        <dbl>      <dbl>
 1  W1327595     M                 2            6        188
 2  W1327803     M                 2            6        210
 3  W1328432     M                 3           12        246
 4  W1328505     F                 5           15        287
 5  W1328786     M                 1            1         10
 6  W1328985     M                 2            6        178
 7  W1328993     F                 1            4        140
 8  W1329560     M                 1            2         24
 9  W1329954     M                 1            2         48
10  W1329962     M                 2            4         48
# ... with 132 more rows
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.