더북(TheBook)

1 LSTM을 이용한 로이터 뉴스 카테고리 분류하기

 

입력된 문장 의미를 파악하는 것은 곧 모든 단어를 종합해 하나의 카테고리로 분류하는 작업이라고 할 수 있습니다. 예를 들어 “안녕, 오늘 날씨가 참 좋네.”라는 말은 ‘인사’ 카테고리에 분류해야 합니다. 그리고 다음과 같이 조금 더 길고 전문적인 말도 정확하게 분류해야 합니다.

중부 지방은 대체로 맑겠으나, 남부 지방은 구름이 많겠습니다.  날씨
올 초부터 유동성의 힘으로 주가가 일정하게 상승했습니다.      주식
이번 선거에서는 누가 이길 것 같아?                           정치
퍼셉트론의 한계를 극복한 신경망이 다시 뜨고 있대.            딥러닝

이번에 실습할 내용은 이처럼 긴 텍스트를 읽고 이 데이터가 어떤 의미를 지니는지 카테고리로 분류하는 연습입니다. 실습을 위해 로이터 뉴스 데이터를 사용하겠습니다. 로이터 뉴스 데이터는 총 1만 1,228개의 뉴스 기사가 46개의 카테고리로 나누어진 대용량 텍스트 데이터입니다. 데이터는 케라스를 통해 다음과 같이 불러오겠습니다.

# 로이터 뉴스 데이터셋 불러오기
from tensorflow.keras.datasets import reuters
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.