4.6 분석모형 응용-확률을 활용한 패턴의 발견
앞서 살펴본 확률과 조건부 확률은 머신 러닝의 주요 기법에 활용된다. 대표적인 예가 연관 규칙(association rule)을 발견하는 연관 규칙 마이닝(association rule mining)이다. 이 분석 기법은 장바구니 분석으로 많이 알려져 있는데, 판매되는 제품의 품목을 분석하여 품목 간의 패턴을 발견하는 기법이다. 이 기법에서 품목이라는 것은 확률에서의 사상으로 이해할 수 있으며, 품목 간의 패턴이라는 것은 두 개 이상의 품목이 같이 발생하는 확률로 이해할 수 있다. 즉, 확률이나 조건부 확률, 사상의 독립에 대한 개념이 많이 활용되는데, 이 기법에서는 확률과 조건부 확률을 지지도와 신뢰도라는 이름으로 나타낸다.
- 지지도(support): 전체 거래에서 제품 A와 B를 동시에 구매한 확률
- 신뢰도(confidence): 제품 A를 구매했을 때 추가로 B를 구매할 조건부 확률
또한, 두 지표 외에도 사상의 독립성을 고려하여 구하는 향상도(lift)를 사용할 수도 있다.
- 향상도(lift): 제품 A를 고려한 B의 구매 확률을 A를 고려하지 않은 B의 구매 확률로 나눈 것으로, 이 값이 높다면 두 품목은 독립이 아니며 연관성이 높다.
향상도에서 두 사상 A와 B가 독립이라면 분자는 P(B)가 되어 향상도는 1이 된다. 독립이 아니라면 1이 아닌 값이 나오게 되는데, A가 조건일 때 B가 더 발생한다면 향상도는 1보다 크게 된다. 그래서 이 값이 높게 나오는 패턴에 더 관심을 가질 수 있다.