즉, 잠재 디리클레 할당(LDA)은 문서에 대한 범주의 연관성을 찾는 데 사용되는 확률론적 모델이며, 다음 두 가지 확률값을 사용해 문서를 군집화한다.
• P(단어 | 주제): 특정 단어가 특정 주제와 연관될 확률. 이 첫 번째 확률 집합은 워드 X 주제 행렬로도 간주된다.
• P(주제 | 문서): 문서와 관련된 항목. 이 두 번째 확률 집합은 주제 X 문서 행렬로 간주된다.
확률값은 모든 단어, 주제 및 문서에 대해 계산된다.
즉, 잠재 디리클레 할당(LDA)은 문서에 대한 범주의 연관성을 찾는 데 사용되는 확률론적 모델이며, 다음 두 가지 확률값을 사용해 문서를 군집화한다.
• P(단어 | 주제): 특정 단어가 특정 주제와 연관될 확률. 이 첫 번째 확률 집합은 워드 X 주제 행렬로도 간주된다.
• P(주제 | 문서): 문서와 관련된 항목. 이 두 번째 확률 집합은 주제 X 문서 행렬로 간주된다.
확률값은 모든 단어, 주제 및 문서에 대해 계산된다.