더북(TheBook)

5.5.1.2 파티션 통계 활용

카탈리스트는 DataFrame의 파티션 내용을 검사하고 각 칼럼의 통계(하한(lower bound), 상한(upper bound), NULL 값 개수 등)를 계산한 후 이 통계를 활용해 필터링 작업 중 일부 파티션들을 건너뛰고 작업 성능을 추가로 최적화한다. 칼럼 통계는 DataFrame을 메모리에 캐시하면 자동으로 계산되므로 사용자가 특별히 해야 할 일은 따로 없다. 단지 DataFrame을 메모리에 캐시하는 것이 성능상 좋다는 점만 기억하자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.