02 | GROUP BY 절과 HAVING 절
지금까지 알아본 집계 함수의 예제는 모두 사원 전체를 기준으로 데이터를 추출했는데, 전체가 아닌 특정 그룹으로 묶어 데이터를 집계할 수도 있다. 이때 사용되는 구문이 바로 GROUP BY 절이다. 그룹으로 묶을 컬럼명이나 표현식을 GROUP BY 절에 명시해서 사용하며 GROUP BY 구문은 WHERE와 ORDER BY절 사이에 위치한다.
입력
SELECT department_id, SUM(salary)
FROM employees
GROUP BY department_id
ORDER BY department_id;
결과
DEPARTMENT_ID SUM(SALARY)
------------- ------------
10 4400
20 19000
30 24900
40 6500
50 156400
60 28800
70 10000
80 304500
90 58000
100 51608
110 20308
7000
12개의 행이 선택됨.
사원 테이블에서 각 부서별 급여의 총액을 구했다. 위 결과를 보면 30번 부서에 속한 사원들의 급여를 모두 합하면 24900 임을 알 수 있다. 또 다른 쿼리를 수행해 보자.
입력
SELECT *
FROM kor_loan_status;
결과
PERIOD REGION GUBUN LOAN_JAN_AMT
-------- -------- -------------------- --------------------
201111 서울 주택담보대출 1.3E+14
201112 서울 주택담보대출 1.3E+14
201210 인천 주택담보대출 3.0E+13
201211 인천 주택담보대출 3.0E+13
201212 인천 주택담보대출 3.0E+13
201111 광주 주택담보대출 8.7E+12
201112 광주 주택담보대출 9.0E+12
201210 광주 주택담보대출 9.5E+12
...
238개의 행이 선택됨
kor_loan_status 테이블에는 월별, 지역별 가계대출 잔액(단위는 십억)이 들어 있고, 대출유형(gubun)은 ‘주택담보대출’과 ‘기타대출’ 두 종류만 존재한다. 그럼 2013년 지역별 가계대출 총 잔액을 구해 보자.
입력
SELECT period, region, SUM(loan_jan_amt) totl_jan
FROM kor_loan_status
WHERE period LIKE '2013%'
GROUP BY period, region
ORDER BY period, region;
결과
PERIOD REGION TOTL_JAN
-------- ---------- -------------
201310 강원 18190.5
201310 경기 281475.5
201310 경남 55814.4
....
34개의 행이 선택됨.
이번엔 2013년 11월 총 잔액만 구해 보자.
입력
SELECT period, region, SUM(loan_jan_amt) totl_jan
FROM kor_loan_status
WHERE period = '201311'
GROUP BY region
ORDER BY region;
결과
SQL 오류: ORA-00979: GROUP BY 표현식이 아닙니다.
왜 오류가 발생한 것일까? 그룹 쿼리를 사용하면 SELECT 리스트에 있는 컬럼명이나 표현식 중 집계 함수를 제외하고는 모두 GROUP BY절에 명시해야 하는데, 앞의 쿼리는 period 컬럼을 명시하지 않아 오류가 난 것이다. 2013년 데이터는 2013년 10월과 11월만 존재하며 WHERE 절에서 기간을 201311로 주었으므로 굳이 period를 그룹에 포함시킬 필요는 없지만, 구문 문법상 GROUP BY 절에 포함시켜야 한다.
HAVING 절은 GROUP BY절 다음에 위치해 GROUP BY한 결과를 대상으로 다시 필터를 거는 역할을 수행한다. 즉 HAVING 필터 조건 형태로 사용한다. 예를 들어, 위 쿼리 결과에서 대출잔액이 100조 이상인 건만 추출한다면 다음과 같이 쿼리를 작성하면 된다.
입력
SELECT period, region, SUM(loan_jan_amt) totl_jan
FROM kor_loan_status
WHERE period = '201311'
GROUP BY period, region
HAVING SUM(loan_jan_amt) > 100000
ORDER BY region;
결과
PERIOD REGION TOTL_JAN
------- ---------- -----------
201311 경기 282816.4
201311 서울 334062.7
경기도와 서울의 대출잔액이 100조 이상인 것을 보면, 대한민국에서는 수도권 인구가 타 지역에 비해 많고 집값도 높다는 점을 유추해 볼 수 있다. 주의할 점은 WHERE 절은 쿼리 전체에 대한 필터 역할을 하고, HAVING 절은 WHERE 조건을 처리한 결과에 대해 GROUP BY를 수행 후 산출된 결과에 대해 다시 조건을 걸어 데이터를 걸러낸다는 점을 잊지 말자.