그림 4-1은 15줄짜리 텍스트 파일을 노드 다섯 개로 구성된 클러스터에 분산 저장해 RDD를 구성한 예다. 15줄짜리 파일이 노드 다섯 개에 분산되었으므로 각 파티션에는 세 줄씩 저장된다. 스파크는 RDD별로 RDD의 파티션 목록을 보관하며, 각 파티션의 데이터를 처리할 최적 위치를 추가로 저장할 수 있다.
▲ 그림 4-1 노드 다섯 개로 구성된 클러스터에 RDD의 파티션을 분산 저장한 예(이 RDD는 SparkContext의 textFile 메서드로 15줄 길이의 텍스트 파일을 로드해 생성했다. 텍스트 파일의 길이가 15줄이므로 각 파티션에는 세 줄씩 저장된다.)
Note
RDD의 파티션 목록은 RDD의 partitions 필드로 제공된다. 이 필드는 Array 타입이므로 partitions.size 필드로 파티션 개수를 알아낼 수 있다.