더북(TheBook)

6.1.6.3 출력 결과

앞서 설명했듯이 saveAsTextFiles 메서드는 각 미니배치별로 새 폴더를 생성한다. 생성된 폴더 중 하나를 열어 보면 part-00000 파일과 _SUCCESS 파일을 볼 수 있다. _SUCCESS는 이 폴더의 쓰기 작업을 성공적으로 완료했음을 나타내는 파일이다. 집계 결과는 part-00000 파일에 저장되며, 파일 내용의 예는 다음과 같다.

part-00000의 예

(false,9969)
(true,10031)

 

데이터가 여러 폴더에 분할 저장되어 있어서 처리하기 곤란해 보이지만 스파크 API를 사용하면 여러 폴더의 파일을 간편하게 읽어 들일 수 있다. SparkContexttextFile 메서드에 파일 경로를 지정할 때 별표 문자(*)를 사용하면 스파크는 텍스트 파일 여러 개를 한꺼번에 읽어 들인다. 예를 들어 다음 표현식을 사용해 예제 애플리케이션이 생성한 모든 파일을 단일 RDD로 로드할 수 있다.

val allCounts = sc.textFile("/home/spark/ch06output/output*.txt")

 

이때 별표 문자는 각 폴더의 타임스탬프로 대체된다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.