더북(TheBook)

4.3 데이터 조인, 정렬, 그루핑

 

마케팅 부서에서 또 다른 데이터 분석 작업을 요청했다. 다음은 마케팅 기획자가 보고서에 추가해 달라고 요청한 데이터다.

어제 판매한 상품 이름과 각 상품별 매출액 합계(알파벳 오름차순으로 정렬할 것)

어제 판매하지 않은 상품 목록

전일 판매 실적 통계: 각 고객이 구입한 상품의 평균 가격, 최저 가격 및 최고 가격, 구매 금액 합계

배움에 대한 열망이 가득 찬 우리는 모든 분석 작업에 스파크 코어 API를 사용하기로 했다.13

 

13 이 절에서는 더욱더 많은 변환 연산자를 살펴볼 것이다. 조금 부담스러울 수는 있지만, 좋은 스파크 프로그램을 작성하려면 다양한 RDD 변환 연산자와 각 연산자의 적절한 용도를 철저히 파악할 필요가 있다. 다 피가 되고 살이 된다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.