더북(TheBook)

전체 지하철역이 대상이므로 WHERE 절은 기술하지 않았고, GROUP BY 절과 집계 함수 사용은 이전 쿼리와 동일합니다. 다만 ORDER BY 절에서 승하차 인원 합계를 내림차순으로 정렬하게 해서 승하차 인원이 많은 순으로 조회했습니다.

한 가지 주의할 점은 집계 함수는 SELECT 절에서만 사용할 수 있다는 점입니다. 따라서 ORDER BY 절에서는 컬럼이나 표현식 대신 SELECT 절에 명시한 표현식 순서를 기반으로 숫자로 명시했습니다. ‘ORDER BY 6 DESC’는 SELECT 절의 여섯 번째 항목인 승하차 인원 합계( SUM(passenger_number) )별로 내림차순으로 정렬하라는 의미입니다.

역시 출근 시간의 하차 인원은 회사가 많은 강남 라인에서 많군요. 또한, 승차 인원은 신림역에서 8시에서 9시 사이에 제일 많다는 것을 알 수 있습니다. 신림역 부근에 직장인들이 상당히 거주한다고 유추할 수 있습니다. 예전에 저도 신림역 근처에서 오래 살았는데 원룸이 꽤 많이 있고 직장인들이 많이 산다고 생각했습니다. 실제 데이터를 보니 그리 틀린 생각은 아니었군요.

쿼리를 작성해 뭔가 유의미한 데이터를 조회해 분석해 보니 좀 재미있지 않나요? 집계 함수와 GROUP BY 절은 사용법이 간단한데 비해 도출되는 결과가 꽤 훌륭합니다. 좀 더 세밀하게 분석하려면 더 많은 데이터와 복잡한 통계 기법이 필요하겠지만, 여기서 배운 내용만으로도 누구나 쉽게 기본적인 데이터 분석을 할 수 있을 것입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.