더북(TheBook)

4.2.3.1 partitionBy

partitionBy 변환 연산자는 Pair RDD에서만 사용할 수 있다. 또 파티셔닝에 사용할 Partitioner 객체만 인자로 전달할 수 있다. 전달된 Partitioner가 기존과 동일하면 파티셔닝을 그대로 보존하고, RDD도 동일하게 유지한다. 반면 Partitioner가 기존과 다르면 셔플링 작업을 스케줄링하고 새로운 RDD를 생성한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.