프로그래머가 알아야 할 알고리즘 40: 6.2.2 계층적 클러스터링 알고리즘

6.2.2 계층적 클러스터링 알고리즘

k-평균 알고리즘은 클러스터 중심점으로부터 알고리즘을 시작하는 하향(top-down) 방식입니다. 이와 반대로, 밑바닥부터 시작하는 알고리즘도 있습니다. 여기에서 밑바닥이란 문제 공간에 있는 개별 데이터 포인트를 의미합니다. 이 알고리즘은 비슷한 데이터 포인트끼리 묶어서 점진적으로 클러스터 중심점으로 이동합니다. 이 상향(bottom-up) 방식 중 하나가 이 절에서 다룰 계층적 클러스터링(hierarchical clustering) 알고리즘입니다.

계층적 클러스터링 알고리즘의 단계

다음은 계층적 클러스터링의 실행 단계입니다.

1. 문제 공간에 있는 각 데이터 포인트마다 클러스터를 생성합니다. 만약 데이터 포인트를 100개 가지고 있다면 클러스터가 100개 만들어집니다.

2. 서로 가장 가까이 위치한 포인트끼리 묶습니다.

3. 종료 조건을 확인합니다. 만약 종료 조건이 달성되지 않았다면 2단계를 반복합니다.

이 알고리즘을 통해 얻는 클러스터 구조를 덴드로그램(dendrogram)이라고 합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.