더북(TheBook)

5.4.3.1 jdbc 메서드로 관계형 데이터베이스에서 데이터 불러오기

DataFrameReaderjdbc 함수는 DataFrameWriterjdbc 함수와 거의 유사하지만 일부 다른 점도 있다. 우선 jdbc 함수의 필수 인자로 URL, 테이블 이름, 접속 속성(java.util.Properties 객체)을 전달해야 하는 점은 같다. 반면 DataFrameReaderjdbc 함수는 여러 조건(predicate)(WHERE 절에 쓸 표현식)을 사용해 DataFrame으로 불러올 데이터셋 범위를 좁힐 수 있다.

예를 들어 앞 예제에서 생성한 PostgreSQL 테이블에서 최소 조회 수를 세 번 이상 기록한 포스트를 불러올 수 있다.

val result = spark.read.jdbc("jdbc:postgresql://postgresrv/mydb",
  "posts", Array("viewCount > 3"), props)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.