더북(TheBook)

참고로 메일 본문의 모든 단어는 컴퓨터가 이해할 수 있도록 벡터로 변경한 후 나이브베이즈 분류기에 입력으로 사용합니다. 이때 단어 순서는 중요하지 않습니다. 단어 순서는 무시하고 빈도수만 고려합니다.

 

구체적인 예시로 확인해 보겠습니다.

 

순서

메일 본문 단어들

분류

1

your free lottery

스팸

2

free lottery free you

스팸

3

your free apple

정상

4

free to contact me

정상

5

I won award

정상

6

my lottery ticket

스팸

표 14-2 | 스팸메일 필터 예시

 

표 14-2와 같이 훈련 데이터가 주어졌을 때, 입력 텍스트 my free lottery의 정상메일과 스팸메일 확률을 구해 봅시다.

 

다음 수식을 적용하여 입력 텍스트의 정상메일과 스팸메일의 확률을 구할 수 있습니다.

 

P(정상메일 | 메일본문) = P(my | 정상메일) × P(free | 정상메일) × P(lottery | 정상메일) × P(정상메일)

P(스팸메일 | 메일본문) = P(my | 스팸메일) × P(free | 스팸메일) × P(lottery | 스팸메일) × P(스팸메일)

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.