빈출 패턴 마이닝
FP-growth 마이닝의 두 번째 단계는 FP-트리로부터 자주 발생하는 패턴을 추출하는 것입니다. 순서 트리라는 효율적 구조를 이용해 트리를 만들었기 때문에 발생 빈도가 높은 패턴을 쉽게 탐색할 수 있습니다.
리프 노드(트리 가장자리의 노드)부터 시작해서 위로 이동합니다. 예를 들어, 리프 노드 중 하나인 bat에서 출발합니다. bat를 이용해 조건부 규칙을 계산해야 합니다. 조건부 규칙은 해당 리프 노드에서부터 최상단 노드에 이르는 모든 경로를 이용해 계산합니다. bat의 조건부 규칙은 다음과 같습니다.
▼ 표 6-7 bat의 조건부 규칙
wickets: 1 |
pads: 1 |
helmet: 1 |
pads: 1 |
helmet: 1 |
bat의 빈출 패턴은 다음과 같습니다.
{wicket, pads, helmet} : bat
{pads,helmet} : bat
FP-growth 코드
파이썬으로 FP-growth 알고리즘을 이용해 연관 규칙을 생성해 봅시다. 이를 위해서는 pyfpgrowth 패키지를 사용합니다. 여러분이 pyfpgrowth를 사용해 본 적이 없다면 먼저 설치부터 해야 합니다.
[in :]
!pip install pyfpgrowth