더북(TheBook)

4.2.3 RDD 파티션 변경

 

다시 스파크 API로 되돌아가서 런타임에 데이터 파티셔닝을 변경할 수 있는 연산자를 알아보기 전에 먼저 왜 데이터의 파티셔닝을 변경해야 하는지 생각해 보자.

앞서 언급했지만 작업 부하를 효율적으로 분산시키거나 메모리 문제를 방지하려고 RDD의 파티셔닝을 명시적으로 변경해야 할 때가 있다. 예를 들어 일부 스파크 연산자에는 파티션 개수의 기본 값이 너무 작게 설정되어 있어 이 값을 그대로 사용하면 파티션에 매우 많은 요소를 할당하고 메모리를 과다하게 점유해 결과적으로 병렬 처리 성능이 저하될 수 있다. RDD의 파티션을 변경할 수 있는 변환 연산자에는 partitionBy, coalesce, repartition, repartitionAndSortWithinPartition이 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.