더북(TheBook)

Note

그림 12-13의 그래프는 SQL을 이용해 매출 데이터를 전체 매출과 전용 상품 매출로 구분하여 출력한 후 결과를 텍스트 파일로 내려받아 R의 GGPLOT2를 이용해서 상자 수염 그림이라고도 부르는 상자 그림(boxplot)으로 표현한 것입니다. 상자 그림은 최댓값, 최솟값, 중앙값, 사분위수, 이상치 등을 알아보기 쉽게 나타내는 그래프입니다. 상자 아랫면의 선은 데이터 값의 1사분위(25% 위치), 상자 중앙 선은 중앙값(50% 위치), 상자 윗면 선은 3사분위(75% 위치)를 가리킵니다. 이 그래프는 SQL을 이용해서 출력한 결과를 다양하게 표현할 수 있다는 예시입니다. 이후 분석의 모든 그래프는 동일한 방식으로 R이나 엑셀 등으로 그렸습니다. 출력 결과를 파일로 내려받는 방법은 '3.1.3절 NOTE 출력 결과 내보내기’에서 설명했습니다.

 

‘전체 주문 건은 391건이고 총 매출은 24,957,000원이야. 평균 매출은 63,828원, 최고 매출은 552,000원, 최저 매출은 6,000원이네. 평균 매출이 최고 매출이나 최저 매출과 꽤 차이가 나는 걸? 다양한 패턴의 고객이 분포할 것으로 생각되는군. 특징 값을 통해 온라인 예약 매출의 개괄적인 내용을 잘 알 수 있었어. 그럼 다음에는 어떤 것을 분석해 볼까?’

 

최 과장이 가장 먼저 알고 싶은 것은 ‘전용 상품이 얼마나 팔렸느냐’입니다. 임원진이 확신하지 못하는 가운데 오로지 혼자 주장했던 결과가 궁금했고, 확신은 있었지만 객관적인 결과를 통해 본인의 주장이 틀리지 않았다는 것을 증명하고 싶었습니다. 그렇다면 전체 판매량 중에 전용 상품의 판매량이 어느 정도인지가 관건일 것입니다.

 

‘전체 상품 중에 전용 상품이 얼마나 팔렸는지부터 확인해 보자. reservation 테이블과 order_info 테이블을 조인하면 매출액(sales)을 출력할 수 있겠어. 순수하게 매출 건만 보려는 거니까 일단 예약 취소 건은 제외시키자. SELECT 문을 쓸 때 item_id에 대해 DECODE 명령어를 사용하면 전용 상품만 따로 구분해서 집계할 수 있겠지?’

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.