더북(TheBook)

3 클러스터 예측 평가하기

 

분류, 회귀 모델은 지도학습으로, 정답이 있기 때문에 정답과 예측값을 비교해 볼 수 있다. 하지만 군집화는 비지도학습으로, 정답이 없기 때문에 목적에 따라 평가 방법을 정해야 한다. 이미 앞에서 엘보 기법으로 군집 간 거리를 계산해 같은 군집끼리 거리가 가까운지, 다른 군집과의 거리가 어느 정도 되는지를 평가했다. 또 군집 결과를 분석해 보면서 평가할 수 있다. 댓글 분석의 목적이 정답이 없는 텍스트를 분류하는 것이었다면 비슷한 내용이 텍스트끼리 군집화했는지를 평가한다.

앞에서 구한 클러스터의 예측 정확도를 확인해 보자. n_clusters는 위에서 정의한 클러스터 수를 사용한다.

 

unique(): 예측한 클러스터의 유일값을 구한다.

where(prediction==label): 예측한 값이 클러스터 번호와 일치하는 것을 가져온다.

mean(): 클러스터의 평균 값을 구한다.

np.argsort(x_means)[::-1][:n_clusters]: 값을 역순으로 정렬해서 클러스터 수만큼 가져온다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.