확률 밀도 함수Probability Density Function 또는 확률 질량 함수Probability Mass Function는 d 뒤에 분포명을 적는다. 예를 들어, 정규 분포의 경우 dnorm( )을 사용한다.
분포 함수Distribution Function1 는 p 뒤에 분표명을 적은 형태다. 예를 들어, 정규 분포의 분포 함수는 pnorm( )이다.
분위수Quantile는 q 뒤에 분포명을 적으며, 정규 분포의 경우 qnorm( )으로 구한다. qnorm( )이 pnorm( )의 역함수에 해당하는데, p와 q가 알파벳에서 연속된 문자임을 상기하면 기억하기 쉽다.
위 세 가지 함수와 난수 발생 함수를 표 7-2에 정리했다.
실험에서 나타난 결과를 실수로 표현한 변수 X를 확률 변수라 한다. 예를 들어, 동전 두 개를 던졌을 때 앞면의 개수 X, 웹 페이지의 하이퍼링크가 클릭된 수 X, 강수량 X가 확률 변수의 예다.
분포 함수는 확률 변수의 누적 분포를 기술하는 함수로, 보통 대문자 F를 써서 F(x)로 표현한다. 누적 분포 함수 F(x)는 확률 변수 X가 x 이하의 값을 가질 확률을 뜻한다. 즉, F(x) = P(X ≤ x)다.
확률 밀도 함수는 연속형 데이터의 확률을 표현한다. 강수량, 키, 몸무게 등의 값이 연속형 데이터의 예다. 확률 밀도 함수는 f(x)처럼 소문자로 표시한다. 그러나 연속형 데이터의 경우 x를 하나의 정확한 값으로 정하기가 곤란하다. 예를 들어, f(93.23483724)와 f(93.23483725)의 비교는 무의미하다. 따라서 f(x)는 구간에 대해 정의하며, 함수를 특정 구간에 대해 적분한 값이 확률 변수 X가 그 구간에 속할 확률이 되는 함수다. 다시 말해 다.
x가 이산형 값들만 가진다면 특정 x에 대한 확률을 계산할 수 있다. 예를 들어, 동전 한 개를 던졌을 때 앞면의 수를 X라 하면 P(X=1)은 앞면, 뒷면의 두 가지 가능성 중 하나에 해당하므로 1/2이다. 이러한 P(X=x)를 확률 질량 함수(Probability Mass Function)라고 하며, 흔히 보기 쉽게 p(x)로 적는다. 확률 질량 함수에서는 확률 밀도 함수와 달리 p(0), p(1)처럼 구간이 아닌 특정 값에 대한 확률을 이야기할 수 있다.
R에서 d로 시작하는 함수(예를 들면, dnorm 함수)는 f(x), p(x)를 계산하며, q로 시작하는 함수는 F(x)를 계산한다.
그림 7-2에 확률 밀도 함수와 분포 함수의 개념도를 보였다. 확률 밀도 함수의 그림이 주어졌을 때 f(X)는 x 값에 대한 확률 밀도 함수의 값 자체가 되고, F(x)는 X ≤ x인 모든 X에 대한 f(x)의 적분 값(즉, 확률 밀도 함수 영역의 넓이)이 된다.
분포 함수 F(x)는 확률 밀도 함수 f(x)가 주어졌을 때 로 정의된다. 즉, X가 x 이하의 값을 가질 확률을 뜻한다. 따라서 F(p) = q라면 X가 p보다 작은 비율이 q임을 뜻한다. 분위수 함수는 q를 주었을 때 F(p) = q인 p를 찾는다. 따라서 분포 함수의 역함수 F-1( )로 이해하면 된다.
확률 분포 |
난수 |
확률 밀도 함수 |
분포 함수 |
분위수 함수 |
이항 분포 |
rbinom |
dbinom |
pbinom |
qbinom |
F 분포 |
rf |
df |
pf |
qf |
기하 분포 |
rgeom |
dgeom |
pgeom |
qgeom |
초기하 분포 |
rhyper |
dhyper |
phyper |
qhyper |
음 이항 분포 |
rnbinom |
dnbinom |
pnbinom |
qnbinom |
정규 분포 |
rnorm |
dnorm |
pnorm |
qnorm |
포아송 분포 |
rpois |
dpois |
pposi |
qpois |
t 분포 |
rt |
dt |
pt |
qt |
연속 균등 분포 |
runif |
dunif |
punif |
qunif |
이 함수들을 실제 코드로 연습해보자. 포아송 분포의 확률 질량 함수Probability Mass Function는 다음과 같다.
λ=1일 때 f(3; 1)을 구해보자.
> dpois(3, 1) [1] 0.06131324 > (1^3 * exp(-1)) / (factorial(3)) [1] 0.06131324
실행 결과 dpois( )에서 구한 값과 수식으로 구한 값이 일치했다.
다음으로 N(0, 1)의 정규 분포에서 누적 분포 F(0) 그리고 50%에 대한 분위 수 F-1(0.5)를 구해보자.
> pnorm(0) [1] 0.5 > qnorm(0.5) [1] 0
정규 분포는 평균(μ)과 분산(σ2)의 두 개 파라미터를 가지며 N(μ, σ2)로 표현한다.
1 누적 분포 함수(CDF, Cumulative Distribution Function)라고도 한다.