스파크를 다루는 기술: 4.2 데이터 파티셔닝을 이해하고 데이터 셔플링 최소화

그림 4-1은 15줄짜리 텍스트 파일을 노드 다섯 개로 구성된 클러스터에 분산 저장해 RDD를 구성한 예다. 15줄짜리 파일이 노드 다섯 개에 분산되었으므로 각 파티션에는 세 줄씩 저장된다. 스파크는 RDD별로 RDD의 파티션 목록을 보관하며, 각 파티션의 데이터를 처리할 최적 위치를 추가로 저장할 수 있다.

▲ 그림 4-1 노드 다섯 개로 구성된 클러스터에 RDD의 파티션을 분산 저장한 예(이 RDD는 SparkContext의 textFile 메서드로 15줄 길이의 텍스트 파일을 로드해 생성했다. 텍스트 파일의 길이가 15줄이므로 각 파티션에는 세 줄씩 저장된다.)

Note

RDD의 파티션 목록은 RDD의 partitions 필드로 제공된다. 이 필드는 Array 타입이므로 partitions.size 필드로 파티션 개수를 알아낼 수 있다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.