더북(TheBook)

LESSON OT
들어가며

이 장에서는 국민청원 데이터를 시각화해 데이터를 탐색해 보겠다. 청와대 국민청원은 청와대 홈페이지에 청원을 등록한 뒤 30일 동안 20만 개 이상의 투표를 받으면 정부가 답변을 제공하는 서비스로, 2017년 8월에 처음 시작했으며 현재는 폐지됐다.1 청원으로 올라온 내용을 분석하면 당시 사회적 이슈를 확인할 수 있다.

국민청원 데이터를 통해 실습해 볼 과제는 다음과 같다.

 

판다스로 데이터 살펴보기

KoNLPy와 soynlp로 특정 형태소를 추출/제거하기

머신러닝으로 텍스트 데이터를 이진 분류해 보기

 

이를 진행하면서 텍스트 데이터 분석에 입문하고 간단한 머신러닝까지 활용해 보겠다. (참고로 데이터를 그대로 사용하므로 데이터 내 오탈자나 오류도 별도 수정 없이 실었다.)

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.