3.2.1 K-평균 군집화
▼ 표 3-10 K-평균 군집화를 사용하는 이유와 적용 환경
왜 사용할까? |
주어진 데이터에 대한 군집화 |
언제 사용하면 좋을까? |
주어진 데이터셋을 이용하여 몇 개의 클러스터를 구성할지 사전에 알 수 있을 때 사용하면 유용합니다. |
K-평균 군집화(K-means clustering)는 데이터를 입력받아 소수의 그룹으로 묶는 알고리즘입니다. 레이블이 없는 데이터를 입력받아 각 데이터에 레이블을 할당해서 군집화를 수행하는데, 학습 과정은 다음과 같습니다.
1. 중심점 선택: 랜덤하게 초기 중심점(centroid)을 선택합니다(그림에서는 K=2로 초기화).
2. 클러스터 할당: K개의 중심점과 각각의 개별 데이터 간의 거리(distance)를 측정한 후, 가장 가까운 중심점을 기준으로 데이터를 할당(assign)합니다. 이 과정을 통해 클러스터가 구성됩니다(이때 클러스터링은 데이터를 하나 혹은 둘 이상의 덩어리로 묶는 과정이며, 클러스터는 덩어리 자체를 의미합니다).
3. 새로운 중심점 선택: 클러스터마다 새로운 중심점을 계산합니다.
4. 범위 확인(convergence): 선택된 중심점에 더 이상의 변화가 없다면 진행을 멈춥니다. 만약 계속 변화가 있다면 2~3 과정을 반복합니다.