스파크를 다루는 기술: 4장 스파크 API 깊이 파헤치기

2장과 3장에서는 RDD를 소개하고, 기본적인 변환 연산자와 행동 연산자로 RDD를 다루는 방법을 설명했다. 스파크 REPL에서 스파크 프로그램을 실행하는 방법과 스파크 독립형 애플리케이션을 스파크 클러스터에 제출하는 방법도 알아보았다.

4장에서는 스파크 코어 API를 자세히 알아보고, 수많은 스파크 API 함수와 조우한다. 이 장은 복잡하고 광범위한 내용으로 가득하지만 이 시점에서 반드시 이해해야 할 주제들을 담고 있다. 그렇다고 너무 부담을 갖지는 말자! 천천히 안전하고 부드럽게 진행할 것이다.

또 4장에서는 Pair RDD라는 키-값 쌍(key-value pair)의 RDD를 사용하는 방법을 알아본다. 그리고 스파크가 데이터를 파티션으로 나누는 방법을 살펴보고, 이 파티션을 적절히 변경하고 활용하는 방법도 배운다. 그런 다음 파티셔닝과 연관된 주제인 셔플링(shuffling)을 알아본다. 셔플링은 연산이 많이 필요하므로 데이터의 불필요한 셔플링을 피하는 방법을 집중적으로 설명할 것이다. 데이터의 그루핑, 정렬, 조인 연산도 알아본다. 누적 변수와 공유 변수를 배우고, 이 변수들로 잡 실행 도중 스파크 실행자 간에 데이터를 공유하는 방법도 설명한다. 마지막으로 RDD 의존 관계를 포함한 스파크의 내부 동작 원리를 상세하게 다룬다. 자, 할 일이 많다. 팔을 걷어붙이자!

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.