더북(TheBook)

6.4 정형 스트리밍

 

스파크 버전 2.0에서는 정형 스트리밍(structured streaming)이라는 실험적 스트리밍 API를 새로 도입했다. 정형 스트리밍의 핵심은 스트리밍 연산의 장애 내성과 일관성을 갖추는 데 필요한 세부 사항을 숨겨서 스트리밍 API를 마치 일괄 처리 API처럼 사용할 수 있게 하는 것이다.

정형 스트리밍 연산은 DataFrame(더 정확하게는 Dataset)에 직접 실행된다. 따라서 더 이상 스트림 개념은 없고, 오직 스트리밍 DataFrame과 일반 DataFrame만 사용한다. 스트리밍 DataFrame은 append-only 테이블, 즉 데이터를 추가하는 연산만 가능한 테이블로 구현되었다. 스트리밍 데이터에 질의를 실행하면 새로운 DataFrame이 반환되며, 그다음부터는 일괄 처리 프로그램과 동일한 방식으로 데이터를 다룰 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.