더북(TheBook)

먼저 메일의 스팸 유무는 다음과 같이 확인할 수 있습니다.

 

P(정상메일 | 메일본문) = 메일본문이 정상일 확률

P(스팸메일 | 메일본문) = 메일본문이 스팸일 확률

 

이를 나이브베이즈를 이용하여 정리하면 다음과 같습니다.

 

P(정상메일 | 메일본문) = (P(메일본문 | 정상메일) × P(정상메일)) / P(메일본문)

P(스팸메일 | 메일본문) = (P(메일본문 | 스팸메일) × P(스팸메일)) / P(메일본문)

 

입력 텍스트가 주어졌을 때 P(정상메일 | 메일본문)이 P(스팸메일 | 메일본문)보다 크면 정상메일이고, 그렇지 않다면 스팸메일일 확률이 높습니다.

 

앞의 두 식은 두 확률 모두 분모에 P(메일본문)이 있으므로 양쪽 모두 제거한다면 다음과 같이 간소화할 수 있습니다.

 

P(정상메일 | 메일본문) = P(메일본문 | 정상메일) × P(정상메일)

P(스팸메일 | 메일본문) = P(메일본문 | 스팸메일) × P(스팸메일)

 

예를 들어 본문에 단어가 두 개 있다고 가정했을 때 단어를 w1, w2라고 표현한다면 나이브베이즈를 이용한 정상메일과 스팸메일의 분류는 다음과 같습니다.

 

P(정상메일 | 메일본문) = P(w1 | 정상메일) × P(w2 | 정상메일) × P(정상메일)

P(스팸메일 | 메일본문) = P(w1 | 스팸메일) × P(w2 | 스팸메일) × P(스팸메일)

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.