더북(TheBook)

①-3 데이터 처리하기: 최종 정리

이제 독립 변수와 종속 변수를 합쳐서 최종 정리해 보겠습니다.

# 독립 변수 데이터셋(①-2)에 종속 변수 데이터셋(①-1) 이너 조인
df_final_data <- inner_join(df_idp_var, df_dpd_var, by = "customer_id")

# 의사 결정 나무 함수를 사용하려고 열 구조를 팩터형으로 바꿈
df_final_data$sex_code <- as.factor(df_final_data$sex_code)
df_final_data$steak_order <- as.factor(df_final_data$steak_order)

df_final_data <- df_final_data[, c(2:6)]   # 의사 결정 나무에 필요한 열만 선택
df_final_data                              # 최종 분석용 데이터셋 확인

 

입력한 코드 전체를 블록으로 선택하고 + 를 눌러 실행합니다.

# A tibble: 142 x 5
   sex_code  visit_sum  visitor_sum  sales_sum  steak_order
   <fct>     <int>            <dbl>      <dbl>  <fct>
 1  M        2                    6        188   Y
 2  M        2                    6        210   Y
 3  M        3                   12        246   Y
 4  F        5                   15        287   N
 5  M        1                    1         10   N
 6  M        2                    6        178   Y
 7  F        1                    4        140   Y
 8  M        1                    2         24   N
 9  M        1                    2         48   N
10  M        2                    4         48   N
# ... with 132 more rows

 

코드 풀이

df_idp_var과 스테이크 주문 데이터셋인 df_dpd_varcustomer_id를 키로 이너 조인합니다. 그리고 df_final_data 변수에 담습니다.

의사 결정 나무 분석을 위해 명목형 값을 갖는 sex_code 열과 steak_order 열을 팩터형 데이터 구조로 변환하고 분석에 사용할 2~6열만 선택합니다.

최종적으로 의사 결정 나무 분석을 위한 df_final_data 데이터셋이 만들어집니다.

 

의사 결정 나무 분석을 위한 데이터가 준비되었습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.