close
더북(TheBook)
search
스파크를 다루는 기술
더북(TheBook)
home
Home
제 1 부 첫걸음
4장 스파크 API 깊이 파헤치기
4.1 Pair RDD 다루기
4.1.1 Pair RDD 생성
4.1.2 기본 Pair RDD 함수
4.2 데이터 파티셔닝을 이해하고 데이터 셔플링 최소화
4.2.1 스파크의 데이터 Partitioner
4.2.2 불필요한 셔플링 줄이기
4.2.3 RDD 파티션 변경
4.2.4 파티션 단위로 데이터 매핑
4.3 데이터 조인, 정렬, 그루핑
4.3.1 데이터 조인
4.3.2 데이터 정렬
4.3.3 데이터 그루핑
4.4 RDD 의존 관계
4.4.1 RDD 의존 관계와 스파크 동작 메커니즘
4.4.2 스파크의 스테이지와 태스크
4.4.3 체크포인트로 RDD 계보 저장
4.5 누적 변수와 공유 변수
4.5.1 누적 변수로 실행자에서 데이터 가져오기
4.5.2 공유 변수로 실행자에 데이터 전송
4.6 요약
제 2 부 스파크 패밀리와 만남
5장 스파크 SQL로 멋진 쿼리를 실행하자
5.1 DataFrame 다루기
5.1.1 RDD에서 DataFrame 생성
5.1.2 기본 DataFrame API
5.1.3 SQL 함수로 데이터에 연산 수행
5.1.4 결측 값 다루기
5.1.5 DataFrame을 RDD로 변환
5.1.6 데이터 그루핑
5.1.7 데이터 조인
5.2 DataFrame을 넘어 Dataset으로
5.3 SQL 명령
5.3.1 테이블 카탈로그와 하이브 메타스토어
5.3.2 SQL 쿼리 실행
5.3.3 쓰리프트 서버로 스파크 SQL 접속
5.4 DataFrame을 저장하고 불러오기
5.4.1 기본 데이터 소스
5.4.2 데이터 저장
5.4.3 데이터 불러오기
5.5 카탈리스트 최적화 엔진
5.6 텅스텐 프로젝트의 스파크 성능 향상
5.7 요약
6장 스파크 스트리밍으로 데이터를 흐르게 하자
6.1 스파크 스트리밍 애플리케이션 작성
6.1.1 예제 애플리케이션
6.1.2 스트리밍 컨텍스트 생성
6.1.3 이산 스트림 생성
6.1.4 이산 스트림 사용
6.1.5 결과를 파일로 저장
6.1.6 스트리밍 계산 작업의 시작과 종료
6.1.7 시간에 따라 변화하는 계산 상태 저장
6.1.8 윈도 연산으로 일정 시간 동안 유입된 데이터만 계산
6.1.9 그 외 내장 입력 스트림
6.2 외부 데이터 소스 사용
6.2.1 카프카 시작
6.2.2 카프카를 사용해 스트리밍 애플리케이션 개발
6.3 스파크 스트리밍의 잡 성능
6.3.1 성능 개선
6.3.2 장애 내성
6.4 정형 스트리밍
6.4.1 스트리밍 DataFrame 생성
6.4.2 스트리밍 데이터 출력
6.4.3 스트리밍 실행 관리
6.4.4 정형 스트리밍의 미래
6.5 요약
제
2
부
스파크
패밀리와 만남
5장
스파크 SQL로 멋진 쿼리를 실행하자
6장
스파크 스트리밍으로 데이터를 흐르게 하자
7장 MLlib로 더 똑똑해지자
8장 스파크 ML로 만드는 분류와 군집화
Prev
BUY
Next
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.
Email address