더북(TheBook)

표 14-2에서 정상메일과 스팸메일의 본문 수가 같기 때문에 확률은 생략 가능합니다.

 

P(정상메일) = P(스팸메일) = 총 메일 여섯 개 중 세 개 = 0.5

 

P(정상메일)과 P(스팸메일)의 값이 같으므로, 두 식 모두 확률은 생략 가능합니다.

 

따라서 다음 수식을 적용하여 확률을 구할 수 있습니다.

 

P(정상메일 | 메일본문) = P(my | 정상메일) × P(free | 정상메일) × P(lottery | 정상메일)

P(스팸메일 | 메일본문) = P(my | 스팸메일) × P(free | 스팸메일) × P(lottery | 스팸메일)

 

P(you | 정상메일)을 구하는 방법은 다음과 같습니다.

 

 

이 경우에는 = 0이 됩니다. 이와 같은 원리로 식을 전개하면 다음과 같습니다.

 

P(정상메일 | 메일본문) = × × = 0

 

P(스팸메일 | 메일본문) = × × = 0.009

 

결과적으로 P(정상메일 | 메일본문) < P(스팸메일 | 메일본문)이므로 입력 테스트 “my free lottery”는 스팸메일로 분류합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.