3 클러스터 예측 평가하기
분류, 회귀 모델은 지도학습으로, 정답이 있기 때문에 정답과 예측값을 비교해 볼 수 있다. 하지만 군집화는 비지도학습으로, 정답이 없기 때문에 목적에 따라 평가 방법을 정해야 한다. 이미 앞에서 엘보 기법으로 군집 간 거리를 계산해 같은 군집끼리 거리가 가까운지, 다른 군집과의 거리가 어느 정도 되는지를 평가했다. 또 군집 결과를 분석해 보면서 평가할 수 있다. 댓글 분석의 목적이 정답이 없는 텍스트를 분류하는 것이었다면 비슷한 내용이 텍스트끼리 군집화했는지를 평가한다.
앞에서 구한 클러스터의 예측 정확도를 확인해 보자. n_clusters는 위에서 정의한 클러스터 수를 사용한다.
➊ unique(): 예측한 클러스터의 유일값을 구한다.
➋ where(prediction==label): 예측한 값이 클러스터 번호와 일치하는 것을 가져온다.
➌ mean(): 클러스터의 평균 값을 구한다.
➍ np.argsort(x_means)[::-1][:n_clusters]: 값을 역순으로 정렬해서 클러스터 수만큼 가져온다.