프로그래머가 알아야 할 알고리즘 40: 6.2.1 유사도 측정하기

k-평균 클러스터링 알고리즘

이 알고리즘은 평균을 이용해 데이터 포인트 간 거리를 계산하고 이를 통해 k개의 클러스터를 생성하기 때문에 k-평균 클러스터링 알고리즘(k-평균 알고리즘)이라고 부릅니다. 이 알고리즘은 다른 알고리즘에 비해 클러스터링 방식이 간단하지만, 빠르고 확장성이 좋기 때문에 여전히 인기가 많습니다. k-평균 알고리즘은 클러스터의 중심점이 클러스터에 속하는 데이터 포인트를 가장 잘 대표할 때까지 중심점을 옮기는 과정을 반복합니다.

k-평균 알고리즘에는 클러스터링에 필요한 아주 기본적인 기능 한 가지가 누락되어 있습니다. 바로 적절한 클러스터 개수를 결정하는 기능입니다. 이 기능이 빠진 이유는 성능을 극대화하면서 알고리즘을 최대한 간단히 만들기 위해서입니다. 덕분에 k-평균 알고리즘은 대규모 데이터셋을 빠르게 처리할 수 있습니다. 클러스터 개수 k는 외부의 알고리즘을 사용해서 결정해야 합니다. k를 결정하는 가장 적절한 방법은 우리가 풀려는 문제의 성격에 달려 있습니다. 어떤 경우에는 클러스터링 문제의 맥락을 이용해 k를 직접 설정할 수 있습니다. 예를 들어, 데이터 과학 수업의 학생들을 데이터 과학 기술 모임과 프로그래밍 기술 모임으로 나눈다고 하면 k는 2가 됩니다. k값을 어떻게 정해야 할지 불분명한 경우도 많이 있습니다. 그러한 경우에는 시행착오를 반복하거나 휴리스틱 기반 알고리즘을 이용해 가장 적절한 수의 클러스터를 알아내야 합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.