더북(TheBook)

그런 다음 주어진 각 문서에 어떤 주제들이 있는지 확인하는 잠재 디리클레 분석을 불러온다. n_components에 들어가는 하이퍼 파라미터 NUM_TOPICS로 토픽 수를 설정하고(기본값=10), 재현성을 위해 random_state에서 고정값은 42로 설정한다. 이러면 같은 데이터와 파라미터로 코드를 실행할 때마다 같은 결과를 얻을 수 있다.

from sklearn.decomposition import LatentDirichletAllocation
 
NUM_TOPICS = 10  
LDA_model = LatentDirichletAllocation(n_components=NUM_TOPICS, random_state=42)

LDA_modeldtm_cv를 넣어 학습한다.

LDA_model.fit(dtm_cv)

실행 결과

LatentDirichletAllocation(random_state=42)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.