①-3 데이터 처리하기: 최종 정리
이제 독립 변수와 종속 변수를 합쳐서 최종 정리해 보겠습니다.
# 독립 변수 데이터셋(①-2)에 종속 변수 데이터셋(①-1) 이너 조인 df_final_data <- inner_join(df_idp_var, df_dpd_var, by = "customer_id") # 의사 결정 나무 함수를 사용하려고 열 구조를 팩터형으로 바꿈 df_final_data$sex_code <- as.factor(df_final_data$sex_code) df_final_data$steak_order <- as.factor(df_final_data$steak_order) df_final_data <- df_final_data[, c(2:6)] # 의사 결정 나무에 필요한 열만 선택 df_final_data # 최종 분석용 데이터셋 확인
입력한 코드 전체를 블록으로 선택하고 + 를 눌러 실행합니다.
# A tibble: 142 x 5 sex_code visit_sum visitor_sum sales_sum steak_order <fct> <int> <dbl> <dbl> <fct> 1 M 2 6 188 Y 2 M 2 6 210 Y 3 M 3 12 246 Y 4 F 5 15 287 N 5 M 1 1 10 N 6 M 2 6 178 Y 7 F 1 4 140 Y 8 M 1 2 24 N 9 M 1 2 48 N 10 M 2 4 48 N # ... with 132 more rows
코드 풀이
• df_idp_var과 스테이크 주문 데이터셋인 df_dpd_var을 customer_id를 키로 이너 조인합니다. 그리고 df_final_data 변수에 담습니다.
• 의사 결정 나무 분석을 위해 명목형 값을 갖는 sex_code 열과 steak_order 열을 팩터형 데이터 구조로 변환하고 분석에 사용할 2~6열만 선택합니다.
• 최종적으로 의사 결정 나무 분석을 위한 df_final_data 데이터셋이 만들어집니다.
의사 결정 나무 분석을 위한 데이터가 준비되었습니다.