더북(TheBook)

Note ≡ | WCSS

올바른 클러스터 개수를 알아내는 이상적인 방법은 WCSS를 계산하는 것입니다. WCSS는 모든 클러스터에 있는 각 데이터가 중심까지의 거리를 제곱하여 합을 계산하는 것으로, 수식은 다음과 같습니다.

C: 클러스터의 중심 값

d: 클러스터 내에 있는 데이터

이때 합계를 최소화하는 것이 가장 이상적입니다. 주어진 데이터셋에 n개의 관측치가 있고 n개의 클러스터 개수(k=n)를 가정하면, 데이터들이 중심 값이 되어 거리가 0이 되므로 이상적으로는 완벽한 클러스터를 형성하여 WCSS는 0이 됩니다. 그러나 이것은 관측치만큼 많은 클러스터를 가지고 있기 때문에 의미 없는 결과입니다. 이러한 문제를 해결하기 위해 ‘엘보 그래프(elbow graph)’를 많이 사용합니다.

엘보 그래프는 K 값 범위에 대해 K-평균 알고리즘을 무작위로 초기화하고, 각 K 값을 WCSS에 플로팅합니다. 이것에 대한 결과 그래프는 다음 그림과 같습니다.

최적의 엘보를 찾는 방법은 다음과 같습니다.

1. 곡선의 처음과 마지막 점을 직선으로 연결

2. 각 점에서 직선까지의 수직 거리를 계산

3. 가장 긴 거리를 엘보(elbow)로 선정

▲ 그림 11-6 엘보

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.