1 LSTM을 이용한 로이터 뉴스 카테고리 분류하기
입력된 문장 의미를 파악하는 것은 곧 모든 단어를 종합해 하나의 카테고리로 분류하는 작업이라고 할 수 있습니다. 예를 들어 “안녕, 오늘 날씨가 참 좋네.”라는 말은 ‘인사’ 카테고리에 분류해야 합니다. 그리고 다음과 같이 조금 더 길고 전문적인 말도 정확하게 분류해야 합니다.
중부 지방은 대체로 맑겠으나, 남부 지방은 구름이 많겠습니다. → 날씨 올 초부터 유동성의 힘으로 주가가 일정하게 상승했습니다. → 주식 이번 선거에서는 누가 이길 것 같아? → 정치 퍼셉트론의 한계를 극복한 신경망이 다시 뜨고 있대. → 딥러닝
이번에 실습할 내용은 이처럼 긴 텍스트를 읽고 이 데이터가 어떤 의미를 지니는지 카테고리로 분류하는 연습입니다. 실습을 위해 로이터 뉴스 데이터를 사용하겠습니다. 로이터 뉴스 데이터는 총 1만 1,228개의 뉴스 기사가 46개의 카테고리로 나누어진 대용량 텍스트 데이터입니다. 데이터는 케라스를 통해 다음과 같이 불러오겠습니다.
# 로이터 뉴스 데이터셋 불러오기 from tensorflow.keras.datasets import reuters