더북(TheBook)

DataFrame은 RDD와 유사할 뿐 아니라 RDD를 기반으로 동작하기 때문에 4장에서 설명한 RDD 실행 원리들이 여전히 DataFrame에도 유효하다. 게다가 DataFrame에는 모든 칼럼의 타입을 미리 지정하므로 RDD에 비해 더 간결하고 손쉽게 쿼리를 작성할 수 있으며, 쿼리를 DataFrame에 최적화해서 더 나은 성능을 발휘할 수 있다.

DataFrame을 생성하는 방법은 세 가지가 있다.

기존 RDD를 변환하는 방법

SQL 쿼리를 실행하는 방법

외부 데이터에서 로드하는 방법

이 중에서 SQL 쿼리를 실행하는 방법이 가장 쉽지만 나중에 알아보기로 하고, 먼저 기존 RDD에서 DataFrame을 생성하는 방법을 살펴보자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.