4.2.3.1 partitionBy
partitionBy 변환 연산자는 Pair RDD에서만 사용할 수 있다. 또 파티셔닝에 사용할 Partitioner 객체만 인자로 전달할 수 있다. 전달된 Partitioner가 기존과 동일하면 파티셔닝을 그대로 보존하고, RDD도 동일하게 유지한다. 반면 Partitioner가 기존과 다르면 셔플링 작업을 스케줄링하고 새로운 RDD를 생성한다.
4.2.3.1 partitionBy
partitionBy 변환 연산자는 Pair RDD에서만 사용할 수 있다. 또 파티셔닝에 사용할 Partitioner 객체만 인자로 전달할 수 있다. 전달된 Partitioner가 기존과 동일하면 파티셔닝을 그대로 보존하고, RDD도 동일하게 유지한다. 반면 Partitioner가 기존과 다르면 셔플링 작업을 스케줄링하고 새로운 RDD를 생성한다.