더북(TheBook)

3.2.1 K-평균 군집화

▼ 표 3-10 K-평균 군집화를 사용하는 이유와 적용 환경

왜 사용할까?

주어진 데이터에 대한 군집화

언제 사용하면 좋을까?

주어진 데이터셋을 이용하여 몇 개의 클러스터를 구성할지 사전에 알 수 있을 때 사용하면 유용합니다.

K-평균 군집화(K-means clustering)는 데이터를 입력받아 소수의 그룹으로 묶는 알고리즘입니다. 레이블이 없는 데이터를 입력받아 각 데이터에 레이블을 할당해서 군집화를 수행하는데, 학습 과정은 다음과 같습니다.

1. 중심점 선택: 랜덤하게 초기 중심점(centroid)을 선택합니다(그림에서는 K=2로 초기화).

2. 클러스터 할당: K개의 중심점과 각각의 개별 데이터 간의 거리(distance)를 측정한 후, 가장 가까운 중심점을 기준으로 데이터를 할당(assign)합니다. 이 과정을 통해 클러스터가 구성됩니다(이때 클러스터링은 데이터를 하나 혹은 둘 이상의 덩어리로 묶는 과정이며, 클러스터는 덩어리 자체를 의미합니다).

3. 새로운 중심점 선택: 클러스터마다 새로운 중심점을 계산합니다.

4. 범위 확인(convergence): 선택된 중심점에 더 이상의 변화가 없다면 진행을 멈춥니다. 만약 계속 변화가 있다면 1~3 과정을 반복합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.