더북(TheBook)

4.5.2.2 공유 변수와 관련된 스파크 매개변수

다음은 공유 변수의 성능에 영향을 미치는 스파크 환경 매개변수다(스파크의 환경 매개변수를 설정하는 방법은 11장을 참고하자).

spark.broadcast.compress: 공유 변수를 전송하기 전에 데이터를 압축할지 여부를 지정한다(이 변수는 true로 유지하면 좋다). 공유 변수는 spark.io.compression.codec에 지정된 코덱으로 압축한다.

spark.broadcast.blockSize: 공유 변수를 전송하는 데 사용하는 데이터 청크의 크기를 설정한다. 실전 테스트를 거쳐 도출한 기본 값(4096KB)을 그대로 유지하면 좋다.

spark.python.worker.reuse: 파이썬의 공유 변수 성능에 큰 영향을 주는 매개변수다. 워커를 재사용하지 않으면 각 태스크별로 공유 변수를 전송해야 한다. 기본 값인 true를 유지하면 좋다.

공유 변수의 핵심을 다시 요약하면 대부분의 워커는 대규모 데이터를 공통으로 사용할 때는 공유 변수를 사용해야 하고, 공유 변수 값에 접근할 때는 항상 value 메서드를 사용해야 한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.