코드 풀이
• 고객 정보 테이블(customer_r)에서 성별 결측치, 즉 성별이 없는 경우를 제거한 df_customer를 만듭니다.8
• df_customer와 예약 테이블, 주문 테이블을 이너 조인합니다.
• 고객별 성별, 방문 횟수, 방문객 수, 매출 값을 담은 df_table_join_3 데이터셋을 만듭니다. 최종적으로 독립 변수로 사용할 df_idp_var 변수에 담습니다. df_idp_var 변수를 만드는 과정을 자세히 살펴보면 다음과 같습니다.
그림 9-18 | 고객 번호별 성별 정보, 방문 횟수, 방문객 수, 매출 합을 요약
8 데이터 분석을 할 경우 결측치는 지금처럼 제거할 수도 있고, 평균값이나 중앙값으로 대체하기도 합니다.