머신 러닝을 위한 수학 with 파이썬, R: 4.6 분석모형 응용-확률을 활용한 패턴의 발견

다음의 예를 살펴보자. 한 마트에서 손님 7명이 구매한 내역이 다음 표 4-2와 같다. 손님 7명 중에서 소고기를 산 손님은 4명으로, 산술적으로 오늘 마트에서 소고기가 팔릴 확률은 가 된다. 손님들은 여러 물건을 구매하였으니, 이제 여러 제품의 조합에 대해 팔릴 확률을 구할 수 있다. 여러 제품의 조합을 이제부터 판매되는 제품의 패턴으로 고려하자.

소고기와 닭고기를 모두 구매한 손님은 7명 중에서 3명이고, 발생 확률은 이 된다. 이제 소고기를 사는 조건에서 닭고기를 사는 경우도 생각해보자. P(닭고기|소고기)를 구하는 문제가 되며, 전체 손님 중 소고기를 사는 확률 가 분모가 되고, 닭고기와 소고기를 같이 사는 확률 이 분자가 되어 계산할 수 있다. 이 조건부 확률은 의 값을 가지며 이 값이 바로 신뢰도가 된다.

▼ 표 4-2 손님들의 구매 목록

	구매 목록
손님 1	소고기	닭고기	우유
손님 2	소고기	치즈
손님 3	치즈	신발
손님 4	소고기	닭고기	치즈
손님 5	소고기	닭고기	옷	치즈	우유
손님 6	닭고기	옷	우유
손님 7	닭고기	옷	우유

이제 옷을 사는 경우, 우유와 닭고기를 사는 패턴에 대해서 지지도를 구하면 전체 손님 7명 중에서 옷, 우유, 닭고기를 같이 산 손님이 3명이므로 이 된다. 그 경우 신뢰도를 구하면 옷을 산 손님이 우유와 닭고기를 사는 조건부 확률이므로 의 값을 가진다. 이렇게 손님의 구매 내역으로 모든 품목을 최대한 조합하여 지지도와 신뢰도를 계산할 수 있다. 분석자는 계산된 값에서 높은 지지도와 신뢰도를 갖는 것만 필터링하여 보면 된다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.