4장
스파크 API 깊이 파헤치기
4.1 Pair RDD 다루기
4.2 데이터 파티셔닝을 이해하고 데이터 셔플링 최소화
4.3 데이터 조인, 정렬, 그루핑
4.4 RDD 의존 관계
4.5 누적 변수와 공유 변수
4.6 요약
이 장에서 살펴볼 주제
• 키-값 쌍을 다루는 방법
• 데이터 파티셔닝과 셔플링
• 그루핑, 정렬, 조인 연산
• 누적 변수와 공유 변수를 사용하는 방법
4.1 Pair RDD 다루기
4.2 데이터 파티셔닝을 이해하고 데이터 셔플링 최소화
4.3 데이터 조인, 정렬, 그루핑
4.4 RDD 의존 관계
4.5 누적 변수와 공유 변수
4.6 요약
이 장에서 살펴볼 주제
• 키-값 쌍을 다루는 방법
• 데이터 파티셔닝과 셔플링
• 그루핑, 정렬, 조인 연산
• 누적 변수와 공유 변수를 사용하는 방법