더북(TheBook)

4.2.4 파티션 단위로 데이터 매핑

 

데이터 파티셔닝의 마지막 주제로 파티션 단위로 데이터를 매핑하는 연산자들을 알아보자. 스파크에서는 RDD의 전체 데이터뿐만 아니라 RDD의 각 파티션에 개별적으로 매핑 함수를 적용할 수도 있다. 이 메서드를 잘 활용하면 각 파티션 내에서만 데이터가 매핑되도록 기존 변환 연산자를 최적화해 셔플링을 억제할 수 있다. 파티션 단위로 동작하는 RDD 연산에는 mapPartitionsmapPartitionsWithIndex, 파티션을 요소로 매핑하는 glom 등이 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.