참고로 메일 본문의 모든 단어는 컴퓨터가 이해할 수 있도록 벡터로 변경한 후 나이브베이즈 분류기에 입력으로 사용합니다. 이때 단어 순서는 중요하지 않습니다. 단어 순서는 무시하고 빈도수만 고려합니다.
구체적인 예시로 확인해 보겠습니다.
순서 |
메일 본문 단어들 |
분류 |
1 |
your free lottery |
스팸 |
2 |
free lottery free you |
스팸 |
3 |
your free apple |
정상 |
4 |
free to contact me |
정상 |
5 |
I won award |
정상 |
6 |
my lottery ticket |
스팸 |
표 14-2 | 스팸메일 필터 예시
표 14-2와 같이 훈련 데이터가 주어졌을 때, 입력 텍스트 my free lottery의 정상메일과 스팸메일 확률을 구해 봅시다.
다음 수식을 적용하여 입력 텍스트의 정상메일과 스팸메일의 확률을 구할 수 있습니다.
P(정상메일 | 메일본문) = P(my | 정상메일) × P(free | 정상메일) × P(lottery | 정상메일) × P(정상메일)
P(스팸메일 | 메일본문) = P(my | 스팸메일) × P(free | 스팸메일) × P(lottery | 스팸메일) × P(스팸메일)