더북(TheBook)

5.4 DataFrame을 저장하고 불러오기

 

스파크는 다양한 기본 파일 포맷 및 데이터베이스를 지원한다(스파크에서는 이를 데이터 소스라고 한다). 여기에는 지금까지 살펴본 JDBC와 하이브를 비롯해 JSON, ORC, Parquet 파일 포맷 등이 해당한다. 또 스파크는 MySQL 및 PostgreSQL 관계형 데이터베이스와 스파크를 연동하는 Dialect 클래스( JDBC의 JdbcType 클래스와 스파크 SQL의 DataType 클래스를 매핑하는 클래스)를 제공한다.19

데이터 소스는 플러그인을 사용해 확장할 수 있다. 플러그인을 직접 구현하거나 CSV(https://goo.gl/PFNbEp), Avro(https://goo.gl/1OY2Ed), 아마존 Redshift(https://goo.gl/LIUwe3) 등 데이터 소스 플러그인을 내려받아 사용할 수 있다.

스파크는 5.3.1절에서 설명한 메타스토어에 데이터 저장 위치와 저장 방법을 보관한다. 실제 데이터는 데이터 소스에 저장된다.

 

19 역주 스파크 버전 2.2는 MySQL과 PostgreSQL뿐만 아니라 DB2, 오라클, Derby, MS SQL 서버, 테라데이터 데이터베이스와 연결할 수 있는 Dialect 클래스를 제공한다. 자세한 Dialect 설명은 IBM의 화신 가오가 작성한 포스트(https://goo.gl/VgDRaa)를 참고하자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.