tqdm 라이브러리의 trange를 통해 진행 정도가 상태바처럼 채워지도록 시작과 끝 값을 설정한다. 진행 상황을 알지 못하면 프로그램이 멈춘 것처럼 보일 수 있다.

    처음부터 중심점을 알기는 어렵다. 적절한 클러스터 개수를 알려면 이너셔(inertia) 값을 구해야 한다.

    random_state=42는 누가 파일을 돌리더라도 같은 값이 나오게 하기 위해 값을 고정하는 역할을 한다.

    fit()으로 학습시킨 후에 이너셔 값을 출력해 본다.

    학습할 때는 feature_tfidf 값을 사용하고 kmeans.inertia_ 값을 이너셔 리스트에 저장한다.

    from sklearn.cluster import KMeans     
    from tqdm import trange ————➊
    inertia = [] ————➋       
     
    start = 10
    end = 70
     
    for i in trange(start, end):            
        kmeans = KMeans(n_clusters=i, random_state=42) ————➌
        kmeans.fit(feature_tfidf) ————➍, ➎    
        inertia.append(kmeans.inertia_)
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.