머신 러닝 워크북: 6.1 연관 규칙 학습은 어느 분야에서 사용되는가?

머신 러닝 방법 중에서 가장 많이 사용되는 것은 아마도 연관 규칙 학습일 것이다. 이 방법은 POS(Point-Of-Sale) 시스템부터 웹페이지 분석에 이르기까지 자주 사용되며, 구매와 데이터 전송을 분석하는 데 주로 이용된다. 연관 규칙 학습은 데이터와 시퀀스(행위)의 요소 사이에 흥미로운 연결을 찾는 것이다. 이러한 연결은 서로 관련이 있는 결과로 이끌어준다.

이 장에서는 연관 규칙 학습법이 어떻게 작동하는지 설명하고, 아파치 머하웃을 사용하여 장바구니를 분석하는 예제를 다뤄볼 것이다. 또한, 이런 종류의 머신 러닝에 얽힌 전설, 사람들이 들은 미담, 사람들의 기대와 현실 등도 이야기하겠다.

6.1 연관 규칙 학습은 어느 분야에서 사용되는가?

소매 유통업은 소비자가 구매할 것이라고 생각하는 상품으로 판매 촉진 활동을 한다. 그러려면 이전에 무엇을 구매했는지, 취향이 비슷한 고객은 무엇을 구매하는지 알아야 한다. 테스코와 타깃 같은 회사는 소비자의 이전 구매 내역을 알기 위해 장바구니 분석 시스템을 발전시키고 있다. 트위터가 만들어내는 데이터의 양이 많다고 생각하는가? POS 시스템의 데이터를 생각해보라. 이것은 또 다른 세계다. 어떤 슈퍼마켓이 이 기술에 실패하고 다시는 장바구니를 쳐다보지 않는다면 경쟁에서 뒤쳐질 것이다. 그러나 장바구니를 분석하고 결과에 맞춰 움직인다면 결산 이익이 증가할 수도 있다.

연관 규칙 학습은 소매 유통업이나 슈퍼마켓에 국한된 것만은 아니며, 웹 분석 분야에서 사용자의 행동을 추적, 학습, 예측하는 데도 사용된다.

정보를 얻기 위해 많은 양의 생물학 데이터를 분석하고 있다. 생물정보학(bioinformatics)은 연관 규칙 학습법을 사용하여 단백질과 유전자 순서를 분석한다. 그러나 DNA 같은 것을 비교하는 특정 분야인 전산 생물학(computational biology)에 비하면 작은 규모다. 게놈의 변형에 대한 연구는 생물 정보학의 연구 줄기 중 하나다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.