더북(TheBook)

tqdm 라이브러리의 trange를 통해 진행 정도가 상태바처럼 채워지도록 시작과 끝 값을 설정한다. 진행 상황을 알지 못하면 프로그램이 멈춘 것처럼 보일 수 있다.

처음부터 중심점을 알기는 어렵다. 적절한 클러스터 개수를 알려면 이너셔(inertia) 값을 구해야 한다.

random_state=42는 누가 파일을 돌리더라도 같은 값이 나오게 하기 위해 값을 고정하는 역할을 한다.

fit()으로 학습시킨 후에 이너셔 값을 출력해 본다.

학습할 때는 feature_tfidf 값을 사용하고 kmeans.inertia_ 값을 이너셔 리스트에 저장한다.

from sklearn.cluster import KMeans     
from tqdm import trange ————➊
inertia = [] ————➋       
 
start = 10
end = 70
 
for i in trange(start, end):            
    kmeans = KMeans(n_clusters=i, random_state=42) ————➌
    kmeans.fit(feature_tfidf) ————➍, ➎    
    inertia.append(kmeans.inertia_)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.