더북(TheBook)

6.2 외부 데이터 소스 사용

 

지금까지 스파크 스트리밍의 내장 데이터 소스(파일 및 소켓)를 사용하는 방법을 살펴보았다. 이제 외부 데이터 소스에 연결해 보자. 다음은 스파크가 공식적으로 커넥터를 지원하는 외부 시스템 및 프로토콜이다.

카프카(https://kafka.apache.org): 빠른 성능과 확장성을 갖춘 분산 발행-구독(publish-subscribe) 메시징 시스템이다. 모든 메시지를 유지하며, 유실된 데이터를 재전송할 수 있다.

플럼(https://flume.apache.org): 대량의 로그 데이터를 안정적으로 수집·집계·전송할 수 있는 분산 시스템이다.

아마존 Kinesis(https://aws.amazon.com/en/kinesis): 카프카와 유사한 아마존 웹 서비스의 스트리밍 플랫폼이다.

트위터(https://dev.twitter.com/overview/documentation): 인기 소셜 네트워크인 트위터가 제공하는 데이터 API다.

ZeroMQ(http://zeromq.org): 분산 메시징 시스템이다.

MQTT(http://mqtt.org): 경량(lightweight) 발행-구독 메시징 프로토콜이다.

 

Note

카프카와 아마존 Kinesis를 제외한 나머지 데이터 소스의 코드는 스파크 프로젝트에서 스파크 패키지 프로젝트(https://github.com/spark-packages)로 옮겨졌다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.