더북(TheBook)

그림 6-2는 스파크 스트리밍이 상태를 유지하는 원리를 도식화한 것이다. 시간이 흐름에 따라 미니배치에는 새로운 데이터가 주기적으로 유입된다. 각 DStream은 이 데이터를 처리하고 결과를 계산하는 일종의 실시간 프로그램이라고 할 수 있다. 스파크 스트리밍에서는 계산 상태를 갱신하는 여러 메서드를 사용해 과거 데이터와 현재 미니배치의 새로운 데이터를 결합하고, 훨씬 더 강력한 스트리밍 프로그램을 만들 수 있다. 이제 어떤 메서드를 사용하면 되는지 알아보자.

▲ 그림 6-2 스파크 스트리밍이 시간에 따라 변하는 상태를 유지하는 방법(DStream은 현재 미니배치로 입수된 새로운 데이터와 마지막 상태에 저장된 과거 데이터를 결합하고, 결과를 계산한 후 새로운 데이터로 상태를 갱신한다.)

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.