①-2 데이터 처리하기: 고객의 성별, 방문 횟수, 방문객 수, 매출 요약하기(독립 변수 생성)
이제 독립 변수를 만들어 보겠습니다.
# 결측치 제거 df_customer <- customer_r %>% filter(!is.na(sex_code)) # 성별이 없으면(NA) 고객 번호 제거 # 고객 테이블과 예약 테이블 customer_id를 키로 이너 조인 df_table_join_1 <- inner_join(df_customer, reservation_r, by = "customer_id") # df_table_join_1과 주문 테이블의 reserv_no를 키로 이너 조인 df_table_join_2 <- inner_join(df_table_join_1, order_info_r, by = "reserv_no") str(df_table_join_2) # df_table_join_2 테이블 구조 확인
* 성별 정보(sex_code)가 NA가 아니라면(!)
코드를 실행하면 다음과 같습니다.
tibble [322 x 19] (S3: tbl_df/tbl/data.frame) $ customer_id : chr [1:322] "W1346506" "W1347648" "W1347756" "W1347984" ... $ customer_name : chr [1:322] "고객71" "고객72" "고객73" "고객74" ... $ phone_number : chr [1:322] "010-1111-1181" "010-1111-1182" "010-1111-1183" "010-1111-1184" ... $ email : chr [1:322] "scust71@sfnb.co.kr" "scust72@sfnb.co.kr" "scust73@sfnb.co.kr" "scust74@sfnb.co.kr" ... $ first_reg_date: chr [1:322] "19/09/01" "19/09/04" "19/09/05" "19/09/06" ... ... 생략 ...