더북(TheBook)

클러스터 개수 계산하기

데이터가 주어졌을 때 분류하고 싶은 클러스터 개수를 정하기 어려울 때가 있다. 때로는 이해관계자가 개수를 정하기도 한다. 예를 들어 마케팅 프로젝트를 시작한다면 다음과 같은 경우를 생각해볼 수 있다.

저빈도, 낮은 가치 고객

저빈도, 높은 가치 고객

고빈도, 낮은 가치 고객

고빈도, 높은 가치 고객

그러나 이런 식의 정보조차 사용할 수 없을 때가 있으므로 우리는 균형점을 찾아 의사결정을 해야 한다. 최적의 수를 계산하는 방법에는 여러 가지가 있다.

 

경험에 따른 규칙(Rule of Thumb Method)

바람의 방향을 알고 싶다면 젖은 손가락을 공중에 세워 보는 것이 가장 효과적이다. 이처럼 대략적인 클러스터를 정할 수 있는 간단한 계산법이 있다. 클러스터의 개수(k)는 개체의 수를 2로 나눈 결과의 제곱근과 같다.

 

개체가 250개 있다면 2로 나누면 125개이고 125의 제곱근을 구하면 11.18개이므로 클러스터는 11개가 나온다. 이것은 분명히 검증할 수 있고 시험하는 방법에 따라 다시 적용될 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.