더북(TheBook)

4.1.2 기본 Pair RDD 함수

 

한 쇼핑 사이트의 마케팅 부서에서 고객에게 선별적으로 사은품을 보내는 행사를 기획했다. 마케팅 기획자는 우리에게 어제 날짜의 구매 기록을 읽어 들여 특정 규칙에 따라 사은품을 추가하는 프로그램을 개발해 달라고 요청했다. 다음은 사은품을 추가하는 규칙이다.

구매 횟수가 가장 많은 고객에게는 곰 인형을 보낸다.

바비 쇼핑몰 놀이 세트를 두 개 이상 구매하면 청구 금액을 5% 할인해 준다.

사전을 다섯 권 이상 구매한 고객에게는 칫솔을 보낸다.

가장 많은 금액을 지출한 고객에게는 커플 잠옷 세트를 보낸다.

사은품은 구매 금액이 0.00달러인 추가 거래로 기입해야 한다. 또 마케팅 부서는 사은품을 받는 고객이 어떤 상품을 구매했는지 알려 달라고 요청했다.

이제 스파크 셸을 열고 업무에 착수해 보자. 가상 머신에 spark 사용자로 로그인했다면 spark-shell이 이미 사용자 PATH에 포함되어 있을 것이다. 소스 코드에서는 파일의 상대 경로를 사용하므로 반드시 홈 디렉터리(/home/spark)에서 스파크 셸을 실행하자. 가상 머신에 설치한 스파크는 이미 마스터 인수로 local[*]을 지정해 클러스터를 시작하도록 이미 기본 값이 설정되어 있으므로 spark-shell 커맨드에 --master 인수를 따로 제공할 필요는 없다.

$ spark-shell
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.