머신 러닝을 위한 수학 with 파이썬, R: 4.1 기초 통계 개념: 모집단/표본, 모수/통계량

표본은 가변적이라는 특징이 있다. 자녀의 친구 범위를 어디까지 할 것인가에 따라 표본으로 측정되는 값들은 달라진다. 물론 어느 시점에서 자녀의 성별과 나이가 같은 어린이들은 불변이지만, 실제로 표본이 되는 자녀의 친구들은 부분 집합이면서 구성이 계속 다를 수 있기 때문이다. 그리고 이러한 표본을 요약하는 평균을 구할 수 있는데, 이를 통계량이라고 부른다. 표본에 따라 통계량의 값은 가변적이다.

이처럼 통계량은 우리가 다루려는 관측값을 정리하고 요약한다. 여러 명의 키 값을 요약한다면 관측값을 보다 효율적이고 편리하게 이해할 수 있다. 그리고 통계적 분석이란 여러 관측값의 특징(주로 어떤 값이 많이 나오거나, 대략적으로 어떤 값과 비슷한 수준의 관측값들이 많거나 등)을 이해하는 과정으로 볼 수 있는데, 주로 관측값들이 어떻게 존재하는지를 알아보거나 또는 같은 관측값의 분포를 찾아내서 숫자로 표시하기 위한 작업을 말한다.

자료를 효율적으로 이해하려면 한 종류의 관측값들이 갖는 여러 특징을 하나의 숫자로 요약해야 하는데, 그 과정에서 두 가지 유형의 요약 값을 고려할 수 있다. 하나는 여러 관측값이 어느 위치에 집중되어 있는지를 알려주는 요약 값이고, 나머지 하나는 그 집중된 값으로부터 얼마나 퍼져있는지를 알려주는 요약 값이다. 이러한 요약 값을 각각 집중화 경향(measure of central tendency)과 산포도(measure of dispersion)라 부른다. 집중화 경향은 관측값들을 대표하는 일종의 중심값으로 산술 평균, 중앙값, 최빈값 등이 있으며, 산포도는 자료가 집중화 경향(예를 들어 평균)을 중심으로 흩어져 있는 정도를 나타내며 범위, 분산, 표준편차, 백분위수 등이 대표적인 예다. 이러한 통계량은 한 종류의 여러 관측값을 요약하고 한 변수로도 표현하는 것이며, 이를 단변수 통계량이라고 한다. 두 종류의 관측값에 대한 통계량을 구하면 이변수 통계량이라 부르며, 이는 두 변수의 관계에 대한 요약 정보를 제공한다. 우선 다음 절에서 단변수 통계량에 대해 살펴보자.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.