참고로 메일 본문의 모든 단어는 컴퓨터가 이해할 수 있도록 벡터로 변경한 후 나이브베이즈 분류기에 입력으로 사용합니다. 이때 단어 순서는 중요하지 않습니다. 단어 순서는 무시하고 빈도수만 고려합니다.

     

    구체적인 예시로 확인해 보겠습니다.

     

    순서

    메일 본문 단어들

    분류

    1

    your free lottery

    스팸

    2

    free lottery free you

    스팸

    3

    your free apple

    정상

    4

    free to contact me

    정상

    5

    I won award

    정상

    6

    my lottery ticket

    스팸

    표 14-2 | 스팸메일 필터 예시

     

    표 14-2와 같이 훈련 데이터가 주어졌을 때, 입력 텍스트 my free lottery의 정상메일과 스팸메일 확률을 구해 봅시다.

     

    다음 수식을 적용하여 입력 텍스트의 정상메일과 스팸메일의 확률을 구할 수 있습니다.

     

    P(정상메일 | 메일본문) = P(my | 정상메일) × P(free | 정상메일) × P(lottery | 정상메일) × P(정상메일)

    P(스팸메일 | 메일본문) = P(my | 스팸메일) × P(free | 스팸메일) × P(lottery | 스팸메일) × P(스팸메일)

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.