더북(TheBook)

6.5.1 토픽 모델링

토픽 모델링(topic modeling)은 문서 집합 내에서 분류에 사용할 수 있는 개념을 도출하는 프로세스입니다. 예를 들어, 트윗 뭉치를 분류할 수 있도록 적당한 주제를 찾아내는 데 토픽 모델링을 사용할 수 있습니다. 토픽 모델링에 널리 쓰이는 알고리즘은 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)이지만, 트윗은 최대 144자로 길이가 짧은데다 보통 특정한 주제를 다루기 때문에 LDA보다 간단한 알고리즘으로 토픽 모델링을 할 수 있습니다. 알고리즘은 다음과 같습니다.

트윗을 토큰화(tokenize)합니다.

데이터를 전처리합니다. 불용어, 숫자, 기호를 지우고 어간을 추출(stemming)합니다.

트윗 데이터에 대한 단어-문서-행렬(Term-Document-Matrix, TDM)을 생성합니다. 중복을 제거한 트윗에서 가장 흔히 등장하는 200개 단어를 선택합니다.

개념이나 주제를 직접 또는 간접적으로 대표하는 단어 10개를 선정합니다. 예를 들어, 패션, 뉴욕, 프로그래밍 같은 단어를 주제로 선택합니다. 우리가 문서에서 발견한 10개 단어는 트윗 클러스터의 중심에 위치한 주제 단어가 됩니다.

다음 단계는 클러스터링입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.