더북(TheBook)

SparkSessionwrite 필드로 제공하는 DataFrameWriter를 사용해 DataFrame의 데이터를 저장할 수 있다.

스파크는 JSON, ORC, Parquet, JDBC 등을 기본 데이터 소스로 지원한다. 그 외 데이터 소스들은 써드-파티 플러그인을 내려받아 사용할 수 있다.

DataFrame의 두뇌라고 할 수 있는 카탈리스트 엔진은 논리 실행 계획을 최적화하고 물리 실행 계획을 생성한다.

텅스텐 프로젝트는 캐시 친화적인 객체 이진 인코딩과 온-힙 할당 및 오프-힙 할당, 텅스텐 셔플링 매니저를 이용해 스파크 성능을 다방면으로 개선했다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.