더북(TheBook)

실행 결과

 

25번 군집에 너무 많은 데이터가 몰려 있고, 군집의 실루엣 계수가 음수로 나타나는 것들도 있다. 이런 군집은 다른 군집과 겹치는 부분이 많아서 제대로 군집되지 않았음을 나타낸다. 정형 데이터에 비해 비정형 텍스트 데이터를 군집화할 때는 전처리, 정규화, 벡터화 등을 고려해야 한다.

이 장에서는 현실세계의 텍스트를 거의 그대로 사용했다. 학습 데이터 세트로 만들어진 KLUE 데이터 세트에도 군집화 방법을 똑같이 적용해 볼 수 있다. 같은 방법이라도 어떤 데이터에 적용하는지에 따라 결과가 달라지기 때문에 다양한 데이터에 적용해 보자. 추후 복잡한 텍스트 데이터를 분석해 보는 데 도움이 될 것이다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.