더북(TheBook)
>>> import pandas as pd
>>> from mlxtend.preprocessing import TransactionEncoder
>>> te = TransactionEncoder()
>>> te_ary = te.fit(dataset).transform(dataset)
>>> df = pd.DataFrame(te_ary, columns = te.columns_)
>>> df
   Apple   Beans    Coke   Cookie    Corn    Eggs   Ice cream   Kidney Beans    Milk   Orange   Yogurt
------------------------------------------------------------------------------------------------------
0   True    True   False     True   False    True       False          False    True    False     True
1   True    True    True     True   False    True       False          False   False    False     True
2  True    False   False    False   False    True       False           True    True    False    False
3  False    True   False    False    True   False       False          False    True     True     True
4  False    True   False     True    True    True        True          False   False    False    False

이후 연관 규칙의 모든 발생 가능한 패턴을 다 찾아주는 Apriori 알고리즘을 적용해 패턴을 발견해보자. 최소 지지도의 기본값이 0.5인데, 우리는 0.6으로 지정해보았다(min_support = 0.6). 최소 지지도가 0.6이라는 이야기는 대상이 되는 후보 패턴의 발생 확률이 전체 구매 내역에서 60%임을 의미한다. use_colnames 옵션은 데이터프레임의 열 이름이 아이템의 이름으로 사용되는 것을 말한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.