더북(TheBook)

4 실루엣 계수 분석하기

 

실루엣 계수 분석은 군집화했을 때 같은 군집 내 샘플 간 거리가 얼마나 가까운지 다른 군집 중 가장 가까운 군집과의 거리는 얼마나 먼지를 측정하는 것으로 평가한다. 실루엣 계수는 데이터 세트에 대한 실측 정보를 알 수 없을 때 사용하며 모델에서 계산된 클러스터의 밀도를 계산한다.

점수는 각 샘플의 평균 클러스터 내 거리와 각 샘플의 평균 최근접 클러스터 거리 간 차이로 계산된 각 샘플의 실루엣 계수를 평균해 최댓값으로 정규화해 계산하며, 1과 -1 사이의 점수를 생성한다. 1에 가까울수록 클러스터가 잘 이루어진 군집이고 -1은 중첩된 군집이다. 이상적인 군집은 그림 8-2와 같은 모습을 나타낸다. 이 그림은 실루엣 계수를 구하고 시각화해 주는 도구인 Yellowbrick의 예다. 붉은색 선은 실루엣 계수의 평균을 나타내며 이상적으로 군집이 잘 되었을 때 이와 같은 그래프가 그려지게 된다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.