먼저 메일의 스팸 유무는 다음과 같이 확인할 수 있습니다.

     

    P(정상메일 | 메일본문) = 메일본문이 정상일 확률

    P(스팸메일 | 메일본문) = 메일본문이 스팸일 확률

     

    이를 나이브베이즈를 이용하여 정리하면 다음과 같습니다.

     

    P(정상메일 | 메일본문) = (P(메일본문 | 정상메일) × P(정상메일)) / P(메일본문)

    P(스팸메일 | 메일본문) = (P(메일본문 | 스팸메일) × P(스팸메일)) / P(메일본문)

     

    입력 텍스트가 주어졌을 때 P(정상메일 | 메일본문)이 P(스팸메일 | 메일본문)보다 크면 정상메일이고, 그렇지 않다면 스팸메일일 확률이 높습니다.

     

    앞의 두 식은 두 확률 모두 분모에 P(메일본문)이 있으므로 양쪽 모두 제거한다면 다음과 같이 간소화할 수 있습니다.

     

    P(정상메일 | 메일본문) = P(메일본문 | 정상메일) × P(정상메일)

    P(스팸메일 | 메일본문) = P(메일본문 | 스팸메일) × P(스팸메일)

     

    예를 들어 본문에 단어가 두 개 있다고 가정했을 때 단어를 w1, w2라고 표현한다면 나이브베이즈를 이용한 정상메일과 스팸메일의 분류는 다음과 같습니다.

     

    P(정상메일 | 메일본문) = P(w1 | 정상메일) × P(w2 | 정상메일) × P(정상메일)

    P(스팸메일 | 메일본문) = P(w1 | 스팸메일) × P(w2 | 스팸메일) × P(스팸메일)

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.