더북(TheBook)

K-평균 클러스터링 알고리즘 로직

이 절에서는 k-평균 알고리즘의 로직을 알아보겠습니다. 하나씩 알아봅시다.

 

초기 설정

k-평균 알고리즘은 데이터 포인트 간 유사도 또는 거리를 이용해 클러스터링을 수행합니다. 따라서 k-평균 알고리즘을 사용하기 전에 어떤 거리 측정 방식을 쓸지 결정해야 합니다. 기본 설정은 유클리드 거리입니다. 또한, 데이터셋에 이상치가 포함된 경우에는 기준을 설정하여 이상치를 제거한 후에 클러스터링을 수행해야 합니다.

 

실행 단계

k-평균 알고리즘은 다음과 같은 단계로 실행됩니다.

▼ 표 6-1 k-평균 알고리즘의 실행 단계

단계

내용

1단계

클러스터 개수 k를 정합니다.

2단계

데이터 포인트 중에서 k개를 골라 클러스터 중심점으로 설정합니다.

3단계

선택한 거리 측정 방식을 이용해 문제 공간상의 각 데이터 포인트와 k개의 클러스터 중심점 사이의 거리를 반복적으로 계산합니다. 데이터셋의 크기에 따라 이 과정은 시간이 오래 걸릴 수 있습니다. 예를 들어, 데이터가 10,000개 포인트로 되어 있으며 k가 3이라면 총 30,000개의 거리를 계산해야 합니다.

4단계

문제 공간상의 각 데이터 포인트를 가장 가까운 클러스터 중심점에 할당합니다.

5단계

포인트가 클러스터에 할당됐으나 문제가 아직 전부 해결된 것은 아닙니다. 최초 클러스터 중심점을 무작위로 설정했기 때문입니다. 이 단계에서는 현재 설정된 클러스터 중심점이 실제로 각 클러스터의 무게 중심인지 확인해야 합니다. 각 클러스터별로 소속된 데이터 포인트의 평균을 계산하여 중심점을 재계산합니다. 왜 k-평균이라는 이름이 붙었는지 아시겠지요?

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.