7.2.8 나이브 베이즈 알고리즘
나이브 베이즈(naive bayes) 알고리즘은 확률론에 기반을 둔 단순한 알고리즘입니다. 하지만 적절히 사용하면 아주 정확한 예측 결과를 얻을 수 있습니다. 다음과 같은 특징 때문에 나이브 베이즈라는 이름이 붙었습니다.
• 입력 특성들이 서로 독립적이라는 나이브한 가정을 사용합니다.
• 베이즈 정리(bayes theorem)를 사용합니다.
나이브 베이즈 알고리즘은 입력 특성들이 완전히 독립적이라는 가정을 사용하며, 특성/인스턴스의 확률을 이용해 인스턴스를 분류합니다.
사건은 크게 세 가지 종류로 나누어 볼 수 있습니다.
• 독립적(independent) 사건: 다른 사건의 확률에 영향을 미치지 않습니다. 예를 들어, 여러분이 테크 콘퍼런스에서 무료 초대장을 받는 사건과 회사에서 구조 조정을 단행하는 사건은 아무런 관련이 없습니다.
• 의존적(dependent) 사건: 다른 사건의 확률에 영향을 미칩니다. 즉, 이 사건들은 서로 어떤 방식으로든 연결되어 있습니다. 예를 들어, 콘퍼런스에 제시간에 도착할 확률은 비행기 승무원들의 파업이나 기체 결함에 영향을 받을 수 있습니다.
• 상호 배타적(mutually exclusive) 사건: 동시에 일어날 수 없습니다. 예를 들어, 주사위 하나를 굴려 3과 6이 동시에 나올 확률은 0입니다. 이 두 사건은 상호 배타적입니다.