더북(TheBook)

이제 K-평균 군집화를 적용합니다.

코드 11-9 K-평균 군집화 적용

num_clusters = 3 ------ 아이리스(붓꽃) 유형이 세 개라서 3으로 지정
cluster_ids_x, cluster_centers = kmeans(
    X=x, num_clusters=num_clusters, distance='euclidean', device=device
) ------ ①

① K-평균 군집화 알고리즘에 대한 훈련은 kmeans()를 이용하며, 이때 사용되는 파라미터는 다음과 같습니다.

ⓐ 첫 번째 파라미터: 훈련 데이터셋

num_clusters: 클러스터 개수

distance: 클러스터를 구성하기 위해 데이터 간의 거리를 계산하는 방법입니다. 데이터 간 유사도(거리)를 측정하는 방법으로 유클리드 거리, 맨해튼 거리, 민코프스키 거리, 코사인 유사도 등이 있습니다. 예제에서는 유클리드 거리 계산 방법을 사용했으며 공식은 다음과 같습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.