UNIT 08
상자 그림: 데이터 분포 확인
상자 그림은 최솟값, 1사분위수(Q1), 2사분위수(Q2), 3사분위수(Q3), 최댓값 등 다섯 가지 수치를 표현하는 데 유용한 그래프입니다.6 상자 그림의 3사분위수(Q3)와 1사분위수(Q1) 사이에는 데이터 중심의 50%가 포함되어 있으며, 2사분위수는 중앙값7을 나타냅니다. 상자 그림을 이용하여 전체 데이터 값의 분포를 확인할 수 있습니다. 또 도수 분포를 표현하는 히스토그램과 다르게 집단이 여러 개일 때도 한 공간에 나타낼 수 있어 유용한 그래프입니다.
아이템별로 매출 분포를 나타내는 상자 그림을 그려 보겠습니다.
# 아이템 메뉴 이름 연결(조인) df_boxplot_graph <- inner_join(order_info_r, item_r, by = "item_id") # 상자 그림 그리기 ggplot(df_boxplot_graph, aes(x = product_name, y = sales/1000)) + geom_boxplot(width = 0.8, outlier.size = 2, outlier.colour = "red") + labs(title = "메뉴아이템 상자그림", x = "메뉴", y = "매출")
6 각 항목 설명은 6장의 ‘상자 그림 그리기’ 내용을 참고합니다.
7 숫자를 쭉 나열했을 때 한가운데에 위치하는 값을 의미합니다.