더북(TheBook)

4장
스파크 API 깊이 파헤치기

 

 

 

4.1 Pair RDD 다루기

4.2 데이터 파티셔닝을 이해하고 데이터 셔플링 최소화

4.3 데이터 조인, 정렬, 그루핑

4.4 RDD 의존 관계

4.5 누적 변수와 공유 변수

4.6 요약

 

 

이 장에서 살펴볼 주제

• 키-값 쌍을 다루는 방법

• 데이터 파티셔닝과 셔플링

• 그루핑, 정렬, 조인 연산

• 누적 변수와 공유 변수를 사용하는 방법

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.