머신 러닝을 위한 수학 with 파이썬, R: 5.1 확률 변수와 확률 분포

5.1 확률 변수와 확률 분포

5장에서는 우선 확률에 대한 개념을 확률 변수와 확률 분포로 확장하여 살펴볼 것이고, 통계량을 이용한 통계적 추론에 대해서도 살펴보겠다.

앞서 이해한 바와 같이 확률이란 특정한 사상이 발생할 정도를 0~1 사이로 계량화한 값이다. 하지만 현실에서 다루는 현상에는 여러 사상¹이 발생할 수 있으며, 그로 인해 다루게 되는 확률도 많아진다.

예를 들어 한 반의 어린이들을 대상으로 오늘 결석하였는지를 살펴본다고 하자. 어린이마다 결석이라는 사상이 발생할 확률을 측정할 수 있다. 하지만 이 반에는 어린이가 여러 명 있으며, 결석 확률 값 역시 어린이의 수만큼 존재한다. 그리고 어린이들이 모두 비슷한 결석 확률을 갖고 있을 수도 있고 아니면 특정 어린이만 높은 결석 확률을 갖고 있을 수도 있다. 이 반에서 결석이라는 사상을 잘 이해하려면 각 어린이가 발생시키는 확률 값의 분포를 이해하는 것이 중요하다.

좀 더 구체적으로 어린이들의 출석과 결석 여부를 측정한다고 하자. 여러 개의 출석 또는 결석 값이 수집될 것이고, 이 사상들에 대한 확률 값이 필요하다. 한 반에 어린이가 5~6명이면 큰 문제는 안 되겠지만, 그 수가 늘어난다면 여간 복잡한 작업이 아닐 수 없다. 이때 입력이 출석이면 숫자 1을 출력하고 결석이면 숫자 0을 출력하는 함수를 이용해서 이 작업을 정리해보자.

▲ 그림 5-1 출석과 결석의 확률 분포

1 사상은 2장에서 자세히 다루었다. 사상의 개념을 다시 한번 확인하려면 2장을 참고하기 바란다.

5.1 확률 변수와 확률 분포

추천 도서와 신규 콘텐츠를 먼저 받아보세요