6.1.6.3 출력 결과
앞서 설명했듯이 saveAsTextFiles 메서드는 각 미니배치별로 새 폴더를 생성한다. 생성된 폴더 중 하나를 열어 보면 part-00000 파일과 _SUCCESS 파일을 볼 수 있다. _SUCCESS는 이 폴더의 쓰기 작업을 성공적으로 완료했음을 나타내는 파일이다. 집계 결과는 part-00000 파일에 저장되며, 파일 내용의 예는 다음과 같다.
part-00000의 예
(false,9969) (true,10031)
데이터가 여러 폴더에 분할 저장되어 있어서 처리하기 곤란해 보이지만 스파크 API를 사용하면 여러 폴더의 파일을 간편하게 읽어 들일 수 있다. SparkContext의 textFile 메서드에 파일 경로를 지정할 때 별표 문자(*)를 사용하면 스파크는 텍스트 파일 여러 개를 한꺼번에 읽어 들인다. 예를 들어 다음 표현식을 사용해 예제 애플리케이션이 생성한 모든 파일을 단일 RDD로 로드할 수 있다.
val allCounts = sc.textFile("/home/spark/ch06output/output*.txt")
이때 별표 문자는 각 폴더의 타임스탬프로 대체된다.