더북(TheBook)

쉬어가는 코너 회귀분석의 기원과 골턴박스

 

▲ 그림 6-4 골턴박스

회귀분석은 통계 데이터 분석에서 가장 널리 사용되는 분석 방법이다. ‘회귀’로 번역되는 ‘regression’이란 용어는 프랜시스 골턴(Francis Galton, 1822~1911)이 처음 사용했다. 골턴은 진화론으로 유명한 찰스 다윈(Charles Darwin)의 사촌동생이며 아버지와 아들의 키와 관련해 유전 관계를 설명하는 논문을 몇 편 발표했다.

골턴과 관련해 빼놓을 수 없는 것이 그의 이름을 딴 골턴박스(골턴보드 또는 빈 머신(bean machine)이라고도 함)다.

그림 6-4와 같이 골턴박스 위에서 구슬을 하나씩 굴려보자. 그러면 구슬은 중간에 격자 형태로 배치된 핀에 걸려 왼쪽 또는 오른쪽으로 이동하면서 하단에 쌓이게 된다. 여기서 신기한 점은 구슬을 굴리면 굴릴수록 가장자리 슬롯보다 가운데 슬롯에 더 많은 구슬이 모인다는 것이다. 마치 통계학 수업에서 배운 정규분포(normal distribution)의 모습과 비슷한 결과인데, 사실 비슷한 정도가 아니라 이것이야말로 바로 정규분포 그 자체다.

구슬이 핀에 걸려 왼쪽 또는 오른쪽으로만 이동하는 것은 동전 던지기처럼 결과가 오직 두 개인 베르누이 시행이며, 이러한 시행이 누적돼 정규분포가 되는 것이다(timebird.egloos.com/7400820에서 파이썬으로 만든 골턴박스 소스 코드를 볼 수 있다).

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.