더북(TheBook)

4 pyLDAvis를 통한 시각화하기

 

pyLDAvis는 파이썬의 토픽 모델링을 구현해 주는 좋은 도구다. 사용자 코퍼스의 토픽을 자동으로 추출해 해석하고 대화형 웹 기반으로 시각화할 수 있도록 설계됐다. 시각화한 결과는 IPython 노트북에서 사용하기 위한 것이지만, 독립 실행형 HTML 파일로 저장해 쉽게 공유할 수 있다.

pyLDAvis는 7장을 시작하면서 설치했으니 바로 사용해 보자. 어떤 방법으로 전처리와 모델링을 해 주느냐에 따라 pyLDAvis로 토픽 모델링한 결과 또한 다르게 나타난다. 다음은 BOW 방식으로 벡터화했을 때의 결과다. 모델링에서 최적화한 토픽별 대표 단어들을 반환한 뒤 t-SNE(t-Stochastic Neighbor Embedding)를 통해 고차원 데이터를 2차원으로 차원 축소해 시각화한 것이다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.