더북(TheBook)

즉, 잠재 디리클레 할당(LDA)은 문서에 대한 범주의 연관성을 찾는 데 사용되는 확률론적 모델이며, 다음 두 가지 확률값을 사용해 문서를 군집화한다.

 

P(단어 | 주제): 특정 단어가 특정 주제와 연관될 확률. 이 첫 번째 확률 집합은 워드 X 주제 행렬로도 간주된다.

P(주제 | 문서): 문서와 관련된 항목. 이 두 번째 확률 집합은 주제 X 문서 행렬로 간주된다.

 

확률값은 모든 단어, 주제 및 문서에 대해 계산된다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.