더북(TheBook)

6.1 스파크 스트리밍 애플리케이션 작성

 

4장과 5장에서 살펴보았듯이, 스파크는 정형 및 비정형 데이터 작업에 적합하다. 그리고 짐작했듯이 스파크는 일괄 처리를 지향한다. 그렇다면 스파크의 일괄 처리 기능을 어떻게 실시간 데이터에 적용할 수 있을까?

해답은 스파크 스트리밍의 미니배치(mini-batch) 개념에서 찾을 수 있다. 스파크 스트리밍은 특정 시간 간격 내에 유입된 데이터 블록을 RDD로 구성한다. 그림 6-1은 미니배치 개념을 도식화한 것이다.

▲ 그림 6-1 아파치 스파크의 스트리밍 데이터 처리 방식(스파크 스트리밍은 입력 데이터 스트림을 미니배치 RDD로 시분할한다. 다른 스파크 컴포넌트는 이 미니배치 RDD를 일반 RDD처럼 처리한다.)

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.