2 MiniBatchKMeans

     

    데이터가 많다면 군집화에 속도가 오래 걸린다. 이때 배치 사이즈를 지정해서 군집화를 진행하면 조금 빠르게 작업할 수 있다. batch_size를 쓸 수 있는 MiniBatchKMeans를 임포트해서 군집화해 보자. 배치 사이즈는 따로 지정하지 않고 기본값을 사용한다. KMeans와 마찬가지로,

     

    1 | 적절한 클러스터의 개수를 알기 위해 이너셔 값을 구한다.

    2 | trange를 통해 시작과 끝 값을 지정해 주면 tqdm을 통해 진행 정도를 알 수 있다.

    3 | b_inertia 리스트에 mkmeans.inertia_ 값을 넣어 준다.

    from sklearn.cluster import MiniBatchKMeans
    b_inertia = []
     
    for i in trange(start, end):
        mkmeans = MiniBatchKMeans(n_clusters=i, random_state=42)
        mkmeans.fit(feature_tfidf)
        b_inertia.append(mkmeans.inertia_)

    실행 결과

    (…)
    100%|██████████| 60/60 [00:14<00:00, 4.00it/s]
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.