더북(TheBook)

5.1.6 데이터 그루핑

 

DataFrame API는 매우 직관적인 데이터 그루핑 기능을 제공한다. SQL의 GROUP BY를 잘 안다면 DataFrame의 데이터 그루핑도 어렵지 않게 이해할 수 있다. DataFrame의 데이터 그루핑은 groupBy 함수로 시작한다. 이 함수는 칼럼 이름 또는 Column 객체의 목록을 받고 GroupedData 객체를 반환한다.

GroupedDatagroupBy에 지정한 칼럼들의 값이 모두 동일한 로우 그룹들을 표현한 객체로, 각 그룹을 대상으로 값을 집계할 수 있는 표준 집계 함수(count, sum, max, min, avg)를 제공한다. GroupedData의 각 집계 함수는 groupBy에 지정한 칼럼들과 집계 결과를 저장한 추가 칼럼으로 구성된 DataFrame을 반환한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.