➊ tqdm 라이브러리의 trange를 통해 진행 정도가 상태바처럼 채워지도록 시작과 끝 값을 설정한다. 진행 상황을 알지 못하면 프로그램이 멈춘 것처럼 보일 수 있다.
➋ 처음부터 중심점을 알기는 어렵다. 적절한 클러스터 개수를 알려면 이너셔(inertia) 값을 구해야 한다.
➌ random_state=42는 누가 파일을 돌리더라도 같은 값이 나오게 하기 위해 값을 고정하는 역할을 한다.
➍ fit()으로 학습시킨 후에 이너셔 값을 출력해 본다.
➎ 학습할 때는 feature_tfidf 값을 사용하고 kmeans.inertia_ 값을 이너셔 리스트에 저장한다.
from sklearn.cluster import KMeans from tqdm import trange ————➊ inertia = [] ————➋ start = 10 end = 70 for i in trange(start, end): kmeans = KMeans(n_clusters=i, random_state=42) ————➌ kmeans.fit(feature_tfidf) ————➍, ➎ inertia.append(kmeans.inertia_)