더북(TheBook)

프로세스 정의하기

연관 규칙은 두 사용자 기준, 최소 지지도와 최소 신뢰도를 만족하도록 정의된다. 규칙은 두 부분으로 나누어 생성된다.

우선 최소 지지도는 데이터베이스(혹은 파일이나 데이터 소스) 내 빈도가 잦은 모든 아이템에 적용될 수 있다. 최소 신뢰도를 가진 빈도가 잦은 아이템은 연관 규칙을 만드는 데 사용된다.

빈도가 잦은 아이템 집합을 찾는 것은 쉽지 않다. 아이템 집합 내 모든 아이템을 가지고 조합이 가능한 모든 경우를 바닥부터 쭉 훑는 저인망식 작업을 해야 하기 때문이다. 이는 모든 가능한 아이템 집합의 수가 ‘멱집합’이기 때문이다.

예를 들어 다음과 같은 집합을 생각해보자.

 

그러면 의 멱집합은 다음과 같다.

{{p1}, {p2}, {p3}, {p1,p2}, {p1,p3}, {p2,p3}, {p1,p2,p3}}

공집합({ })은 제외됨을 주의하라. 아이템의 숫자를 n이라고 하면 멱집합은 개다. 아이템의 개수가 조금만 늘어도 멱집합의 크기는 많이 커진다. 그러므로 이 방법은 Apriori 알고리즘을 사용할 때 메모리 부족을 겪는다. 분명 장바구니의 모든 조합의 멱집합까지는 필요 없지만, 장바구니의 조합을 고려한 계산이 필요하다. 하지만, 이 방법을 바탕으로 연산을 실행해도 여전히 시간과 메모리에 값비싼 대가를 치른다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.