더북(TheBook)

푸아송분포

푸아송분포(poisson distribution)는 확률론에서 단위 시간 안에 어떤 사건이 몇 번 발생할지를 표현하는 이산확률분포입니다.

 

이항분포에서 n → ∞, p → ∞일 때의 극한을 푸아송분포라고 합니다. 즉, 이항분포에서 시행 횟수가 충분히 많고 확률이 충분히 작을 때는 푸아송분포로 근사해서 문제를 풉니다. 다르게 표현하면 ‘대부분 실패하는 것’을 아주 많이 시도할 때 푸아송분포를 사용합니다.

 

파이썬에서도 다음과 같이 푸아송분포를 표현할 수 있습니다.

 

In [15]:

# NumPy와 matplotlib 라이브러리를 호출합니다
import numpy as np
import matplotlib.pyplot as plt

# np.random.poisson 함수를 사용해서 사건의 평균 횟수인 
# 람다(lambda)가 5인 푸아송분포에서 난수 10000개를 생성합니다
s = np.random.poisson(5, 10000)

# 샘플들의 histogram을 출력합니다
count, bins, ignored = plt.hist(s, 14, color='y')
plt.show()

 

 

지금까지 확률분포의 종류를 알아보았습니다. 각 확률분포마다 수식들이 있지만 모두 생략했습니다. 인공지능을 위한 확률분포의 목표는 수식을 푸는 것이 아니라 결과로 도출된 확률분포를 이해하는 것입니다. 따라서 데이터들에 대한 확률분포가 어떤 확률분포로 표현되는지, 표현된 확률분포는 어떤 의미가 있는지 정도만 이해할 수 있으면 됩니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.