더북(TheBook)

2 MiniBatchKMeans

 

데이터가 많다면 군집화에 속도가 오래 걸린다. 이때 배치 사이즈를 지정해서 군집화를 진행하면 조금 빠르게 작업할 수 있다. batch_size를 쓸 수 있는 MiniBatchKMeans를 임포트해서 군집화해 보자. 배치 사이즈는 따로 지정하지 않고 기본값을 사용한다. KMeans와 마찬가지로,

 

1 | 적절한 클러스터의 개수를 알기 위해 이너셔 값을 구한다.

2 | trange를 통해 시작과 끝 값을 지정해 주면 tqdm을 통해 진행 정도를 알 수 있다.

3 | b_inertia 리스트에 mkmeans.inertia_ 값을 넣어 준다.

from sklearn.cluster import MiniBatchKMeans
b_inertia = []
 
for i in trange(start, end):
    mkmeans = MiniBatchKMeans(n_clusters=i, random_state=42)
    mkmeans.fit(feature_tfidf)
    b_inertia.append(mkmeans.inertia_)

실행 결과

(…)
100%|██████████| 60/60 [00:14<00:00, 4.00it/s]
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.