스파크를 다루는 기술: 제 2 부 스파크 패밀리와 만남

이제 스파크를 구성하는 여러 다른 컴포넌트(스파크 SQL, 스파크 스트리밍, 스파크 MLlib, 스파크 GraphX)를 살펴볼 때가 되었다. 3장에서 스파크 SQL을 간략하게 살펴보았지만, 이어지는 5장에서 스파크 SQL을 제대로 파헤쳐 보자. DataFrame을 생성하고 사용하는 방법, SQL로 DataFrame에 질의하는 방법, 외부 데이터 소스에서 데이터를 로드하고 저장하는 방법을 알아본다. 또 스파크 SQL 카탈리스트 최적화 엔진과 텅스텐 프로젝트가 달성한 스파크 성능 향상도 살펴본다.

6장에서는 스파크 컴포넌트 중에서 인기가 많은 스파크 스트리밍을 소개한다. 스트리밍 애플리케이션이 동작하는 동안 주기적으로 RDD를 생성하는 이산 스트림을 알아본다. 시간에 따라 변하는 계산 상태를 저장하는 방법과 윈도 연산을 사용하는 방법, 스파크 스트리밍과 카프카를 연결하는 방법, 스트리밍 작업 성능을 개선하는 방법 등도 살펴본다.

7장과 8장에서는 머신 러닝, 즉 스파크 MLlib 및 스파크 API의 스파크 ML을 다룬다. 머신 러닝의 일반적인 내용과 선형 회귀, 로지스틱 회귀, 의사 결정 트리, 랜덤 포레스트, k-평균 군집화를 알아본다. 또 특징 변수의 스케일링 및 정규화를 수행하고, 일반화를 적용한 후 머신 러닝 모델을 훈련시키고 평가하는 과정을 차례대로 실습해 본다. 스파크 ML의 API 표준화도 설명한다.

9장에서는 스파크 GraphX API를 사용해 그래프를 다루는 방법을 설명한다. 그래프 변환 및 조인 연산과 그래프 알고리즘을 사용하는 방법을 실습한다. 마지막으로 GraphX API로 A* 검색 알고리즘을 구현해 본다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.