더북(TheBook)

3. 확률

  • 확률: 랜덤 이벤트의 정량적 표현(0~1)이다.
  • 표본 공간: 통계 조사에서 얻을 수 있는 모든 가능한 결과의 집합 또는 실험이나 관측을 했을 때 출현 가능한 모든 결과의 집합이다.
  • 표본점: 표본 공간(S)을 구성하는 각 원소이다.
  • 조건부 확률: 어떤 사상이 주어졌을 때 다른 사상이 발생할 확률이다.
  • 베이즈 정리(bayes theorem): 새로운 자료에서 나온 확률에 기반하여 과거의 확률을 향상(update)하는 관계를 나타낸다.

4. 연관 규칙(association rule)

  • 라케시 아그라왈(Rakesh Agrawal)에 의해 1993년 소개되었으며, 다수의 거래 내역 각각에 포함된 품목(item)의 관찰을 통해 규칙을 발견한다.
  • 모든 데이터를 범주형 자료(categorical data)로 가정, 수치 자료(numeric data)는 범주형 자료로 변환 후 사용한다.
  • 장바구니 분석에 처음 사용되었고, 모든 규칙을 찾으며, 특정한 타깃(target) 변수가 없다.
  • 지지도(support): 발생 확률, 전체 자료에서 관련성이 있는 거래나 사상의 모든 확률(두 항목이 동시에 일어날 확률)이다.
  • 신뢰도(confidence): 어떤 사상 X가 일어났을 때 사상 Y가 추가로 일어날 조건부 확률이다.
  • 향상도(lift): 사상 A를 고려한 B의 발생 확률을 A를 고려하지 않은 B의 발생 확률로 나눈 것으로, 이 값이 높다면 우연에 의해 연관성이 나타난다. 두 사상이 독립인 경우에는 분모 분자가 동일하고 Lift=1, 독립이 아닌 경우(연관된 경우)에는 분모, 분자 값이 다르다.
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.