더북(TheBook)

빈출 패턴 마이닝

FP-growth 마이닝의 두 번째 단계는 FP-트리로부터 자주 발생하는 패턴을 추출하는 것입니다. 순서 트리라는 효율적 구조를 이용해 트리를 만들었기 때문에 발생 빈도가 높은 패턴을 쉽게 탐색할 수 있습니다.

리프 노드(트리 가장자리의 노드)부터 시작해서 위로 이동합니다. 예를 들어, 리프 노드 중 하나인 bat에서 출발합니다. bat를 이용해 조건부 규칙을 계산해야 합니다. 조건부 규칙은 해당 리프 노드에서부터 최상단 노드에 이르는 모든 경로를 이용해 계산합니다. bat의 조건부 규칙은 다음과 같습니다.

▼ 표 6-7 bat의 조건부 규칙

wickets: 1

pads: 1

helmet: 1

pads: 1

helmet: 1

bat의 빈출 패턴은 다음과 같습니다.

{wicket, pads, helmet} : bat

{pads,helmet} : bat

 

FP-growth 코드

파이썬으로 FP-growth 알고리즘을 이용해 연관 규칙을 생성해 봅시다. 이를 위해서는 pyfpgrowth 패키지를 사용합니다. 여러분이 pyfpgrowth를 사용해 본 적이 없다면 먼저 설치부터 해야 합니다.

[in :]

!pip install pyfpgrowth

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.