더북(TheBook)

4.3.3 데이터 그루핑

 

데이터 그루핑(grouping)은 데이터를 특정 기준에 따라 단일 컬렉션으로 집계하는 연산을 의미한다. 스파크에서는 (4.1.2절에서 사용한) aggregateByKey, groupByKey(또는 groupBy), combineByKey 등 다양한 Pair RDD 변환 연산자로 데이터를 그루핑할 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.