2 MiniBatchKMeans
데이터가 많다면 군집화에 속도가 오래 걸린다. 이때 배치 사이즈를 지정해서 군집화를 진행하면 조금 빠르게 작업할 수 있다. batch_size를 쓸 수 있는 MiniBatchKMeans를 임포트해서 군집화해 보자. 배치 사이즈는 따로 지정하지 않고 기본값을 사용한다. KMeans와 마찬가지로,
1 | 적절한 클러스터의 개수를 알기 위해 이너셔 값을 구한다.
2 | trange를 통해 시작과 끝 값을 지정해 주면 tqdm을 통해 진행 정도를 알 수 있다.
3 | b_inertia 리스트에 mkmeans.inertia_ 값을 넣어 준다.
from sklearn.cluster import MiniBatchKMeans b_inertia = [] for i in trange(start, end): mkmeans = MiniBatchKMeans(n_clusters=i, random_state=42) mkmeans.fit(feature_tfidf) b_inertia.append(mkmeans.inertia_)
실행 결과
(…) 100%|██████████| 60/60 [00:14<00:00, 4.00it/s]