더북(TheBook)

 

아파치 스파크와 스파크의 풍부한 API를 소개하는 것으로 이 책을 시작한다. 1부는 고품질 스파크 프로그램을 작성하는 데 있어 매우 중요하며 책의 다른 부분을 이해하기 위한 좋은 밑거름이라고 할 수 있다.

 

1장에서는 스파크의 주요 기능을 대략적으로 설명하고 하둡의 맵리듀스 및 기타 하둡 생태계의 도구들과 스파크를 비교한다. 또 책의 예제를 실행하는 데 사용할 수 있는 가상 머신을 소개한다.

 

2장에서는 가상 머신을 더 자세히 살펴보고 스파크의 명령줄 인터페이스인 스파크 셸의 사용법을 설명한다. 그런 다음 스파크의 핵심 추상화 객체인 RDD를 몇 가지 예제와 함께 설명한다.

 

3장에서는 스파크의 독립형 애플리케이션을 작성할 수 있는 이클립스의 설정 방법을 알아본다. 그런 다음 깃허브 로그를 분석하는 예제 애플리케이션을 작성하고 이를 스파크 클러스터에 제출해 실행하는 과정을 실습한다.

 

4장에서는 스파크 코어 API를 자세히 설명한다. 특히 키-값 쌍을 사용하는 방법과 스파크의 데이터 파티셔닝 및 셔플링이 동작하는 방식을 자세히 알아본다. 또 데이터를 그루핑·정렬·조인하는 방법과 누적 변수, 공유 변수를 다루는 방법도 설명한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.