더북(TheBook)

텅스텐 프로젝트는 스파크의 셔플링 성능 또한 상당 부분 개선했다. 스파크 버전 1.5 이전에서는 정렬 기반 셔플링 매니저와 해시 기반 셔플링 매니저만 사용할 수 있었지만, 버전 1.5부터는 텅스텐 셔플링 매니저를 추가했다. 텅스텐 셔플링도 정렬 기반 셔플링이지만 앞서 언급한 이진 인코딩을 활용한다. 텅스텐 셔플링 매니저는 스파크의 spark.shuffle.manager 매개변수를 tungsten-sort로 설정해 활성화한다. 향후 공개할 스파크 버전에서는 텅스텐의 이진 인코딩을 다른 스파크 컴포넌트에도 도입해서 성능을 더욱 개선할 예정이다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.