더북(TheBook)

LESSON 07
군집화하기

1 KMeans

 

K평균(KMeans) 군집화는 머신러닝의 비지도학습 기법 중 하나로, 주어진 데이터를 K개로 묶는 알고리즘이다. 군집 간 거리 차이의 분산을 최소화하는 방식으로 군집을 만들어 나간다.

더 구체적으로는, 데이터 집합에서 K개의 데이터 개체를 임의로 추출하고 각 클러스터의 중심점(centroid)을 초깃값으로 설정한다. 그리고 K개의 군집과 데이터 집합의 개체의 거리를 구해 각 개체가 어느 중심점과 가장 유사도가 높은지를 계산한다. 그렇게 찾은 중심점으로 다시 데이터 군집의 중심점을 계산하는 방법을 반복한다. 이때 거리를 구하는 방법은 7.2절의 유사도 분석에서 알아본 유클리드 거리 측정 방법을 사용한다.

그럼 K평균 군집화를 사용해 보자. 사이킷런에서 KMeans를 임포트한다. 이름에서 알 수 있는 것처럼 데이터 세트에 K개의 중심점을 설정해야 하고, 몇 개로 군집화할 것인지 정해야 한다. 군집화 개수를 정하기 위해 for 문을 돌리면서 군집화 개수를 알아보자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.