더북(TheBook)

24,006건의 기사는 일별로 정리되어 일반적인 텍스트 마이닝 과정3을 거쳤다. 불용어를 제거하거나 어간 추출(stemming)을 하고, 문헌용어행렬을 생성하였으며, 무엇보다도 긍정과 부정의 단어를 체크하였다. 노터데임 대학교의 맥도널드(McDoland) 교수의 금융 분야 감성 용어사전을 활용하였고, 긍정과 부정을 하나의 지표로 표현하기 위해 감성 점수(Score)를 정의하였다.

그리고 어제 신문에서 감성 점수를 계산하고 감성 점수와 내일 S&P 500의 관계를 살펴보았다. 이 과정에서 전체 뉴스, 월스트리트 저널(WSJ), 다우존스로 나눠 S&P 500과의 상관관계를 조사해보았다.

▲ 그림 6-3 뉴스 감성과 S&p 500과의 관계

 

 


3 텍스트 마이닝 과정이 잘 기억나지 않는다면 1.4.1절을 참고하기 바란다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.