더북(TheBook)

4.2.3.3 repartitionAndSortWithinPartition

repartitionAndSortWithinPartition 변환 연산자로 RDD의 파티션을 변경할 수도 있다. 이 연산자는 정렬 가능한 RDD(즉, 정렬 가능한 키로 구성된 Pair RDD)에서만 사용할 수 있다. 이 연산자는 4.3.2절에서 마저 다룬다.

메서드 이름에서 유추할 수 있듯이 repartitionAndSortWithinPartition은 새로운 Partitioner 객체를 받아 각 파티션 내에서 요소를 정렬한다. 이 연산자는 셔플링 단계에서 정렬 작업을 함께 수행하기 때문에 repartition을 호출한 후 직접 정렬하는 것보다 성능이 더 낫다. 이것은 repartitionAndSortWithinPartition이 셔플링을 항상 수행한다는 뜻도 된다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.