표 14-2에서 정상메일과 스팸메일의 본문 수가 같기 때문에 확률은 생략 가능합니다.
P(정상메일) = P(스팸메일) = 총 메일 여섯 개 중 세 개 = 0.5
P(정상메일)과 P(스팸메일)의 값이 같으므로, 두 식 모두 확률은 생략 가능합니다.
따라서 다음 수식을 적용하여 확률을 구할 수 있습니다.
P(정상메일 | 메일본문) = P(my | 정상메일) × P(free | 정상메일) × P(lottery | 정상메일)
P(스팸메일 | 메일본문) = P(my | 스팸메일) × P(free | 스팸메일) × P(lottery | 스팸메일)
P(you | 정상메일)을 구하는 방법은 다음과 같습니다.
이 경우에는 = 0이 됩니다. 이와 같은 원리로 식을 전개하면 다음과 같습니다.
P(정상메일 | 메일본문) = × × = 0
P(스팸메일 | 메일본문) = × × = 0.009
결과적으로 P(정상메일 | 메일본문) < P(스팸메일 | 메일본문)이므로 입력 테스트 “my free lottery”는 스팸메일로 분류합니다.