더북(TheBook)

① 거리 제곱의 합(Sum of Squared Distances, SSD)x, y 두 데이터의 차를 구해서 제곱한 값을 모두 더한 후 유사성을 측정하는 데 사용됩니다. 즉, 가장 가까운 클러스터 중심까지 거리를 제곱한 값의 합을 구할 때 사용하며, 다음 수식을 씁니다.

K가 증가하면 거리 제곱의 합은 0이 되는 경향이 있습니다. K를 최댓값 n(여기에서 n은 샘플 수)으로 설정하면 각 샘플이 자체 클러스터를 형성하여 거리 제곱 합이 0과 같아지기 때문입니다.

출력 그래프는 클러스터 개수(x축)에 따른 거리 제곱의 합(y축)을 보여 줍니다. K가 6부터 0에 가까워지고 있으므로 K=5가 적정하다고 판단할 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.