더북(TheBook)

LESSON OT
들어가며

120다산콜재단은 2007년 다산콜센터로 시작한, 서울시의 행정 상담 민원 서비스로 365일 24시간 상담 서비스를 제공하고 있다. 여기서는 다산콜재단의 질문과 답변 데이터를 사용할 것이다. 자세한 소개는 홈페이지1를 참고하자.

이 장은 다음 두 가지 부분으로 구성되어 있다.

 

‘120다산콜재단’ 데이터를 토픽별로 분석 시각화

RNN, LSTM을 통한 모델링

 

먼저 잠재 디리클레 할당을 통한 토픽 모델링으로 분석하고, 토픽 모델링을 시각화해 주는 pyLDAvis를 이용해 시각화해 본다. 그리고 학습, 시험 데이터를 분리해 RNN으로 모델을 만들어 학습시켜 보겠다.

지금은 무슨 말인지 몰라도 괜찮다. 이 장에서 실습하면서 차차 알아갈 것이다. 문자 길이나 빈도 등에 대한 내용은 이전 장에서 다루었으므로 이 장에서는 생략하지만, 데이터 분석에 기본이 되는 내용이므로 미리 확인하고 토픽 모델링을 시작하는 것이 좋다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.