더북(TheBook)

6.1.3.2 DStream 객체 생성

가장 먼저 분할된 파일을 복사할 (HDFS 또는 로컬) 폴더를 하나 골라야 한다. 예제에서는 /home/ spark/ch06input을 사용했다. 다시 스파크 셸로 되돌아와서 이 폴더를 textFileStream 메서드에 전달해 스트리밍 애플리케이션의 입력 폴더로 설정하자.

scala> val filestream = ssc.textFileStream("/home/spark/ch06input")

 

textFileStream 메서드는 DStream 클래스의 인스턴스를 반환한다. DStream, 즉 이산 스트림은 스파크 스트리밍의 기본 추상화 객체로 입력 데이터 스트림에서 주기적으로 생성하는 일련의 RDD 시퀀스를 표현한다. 이쯤이면 당연하다고 느끼겠지만 DStream은 RDD와 마찬가지로 지연 평가된다. 따라서 textFileStream으로 DStream 객체를 생성한 시점에서는 아직 아무 일도 일어나지 않는다. 이후 6.1.6절에서 스트리밍 컨텍스트를 시작하면 그때부터 RDD가 실제로 유입된다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.