더북(TheBook)

NOTE 이상치

최댓값과 최솟값은 이상치를 제외한 값 중 가장 큰 값과 작은 값으로 각각 정합니다. 그럼 이상치란 무엇일까요? 이상치(outlier)란 표본 데이터 범위에서 과하게 벗어난 값을 의미합니다. 상자 수염 그래프에서 이상치를 정하는 기준은 상자의 길이를 활용합니다. 상자의 길이를 IQR이라고 하는데 IQR은 Q3 - Q1으로 구할 수 있습니다. 따라서 국어 점수 데이터에서의 IQR은 60 - 20인 40이 됩니다.

최댓값은 Q3부터 (Q3 + 1.5 × IQR) 범위에서 가장 큰 값이고, 최솟값은 (Q1 - 1.5 × IQR)부터 Q1 범위에서 가장 작은 값입니다. 그리고 이 값보다 더 크거나 작은 값은 이상치가 됩니다.

국어 점수 데이터에서 IQR은 40이고, Q1은 20, Q3는 60입니다. 따라서 60~120(60 + 1.5 × 40) 범위에서 가장 큰 값인 80이 최댓값, -40(20 - 1.5 × 40)~20 범위에서 가장 작은 값인 10이 최솟값이 됩니다. 국어 점수에는 120보다 크거나 -40보다 작은 값은 없으므로 이상치는 없습니다. 이를 상자 수염 그림으로 그리면 다음과 같은 모양이 됩니다.

▲ 그림 8-9 국어 점수의 상자 수염 그림

만약 이상치가 있다면 상자 수염 그림은 다음처럼 그려집니다.

▲ 그림 8-10 이상치가 표시된 상자 수염 그림

그래프에 보이는 동그라미는 이상치를 나타냅니다. 그래프를 보면 대다수의 데이터는 0과 500 사이에 있는데, 이 범위를 벗어난 700에서 800 사이에 값이 있다는 의미로 해석하면 됩니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.