더북(TheBook)

 

1LSTM을 이용한 로이터 뉴스 카테고리 분류하기

 

입력된 문장의 의미를 파악하는 것은 곧 모든 단어를 종합하여 하나의 카테고리로 분류하는 작업이라고 할 수 있습니다. 예를 들어 “안녕. 오늘 날씨가 참 좋네”라는 말은 ‘인사’ 카테고리에 분류해야 합니다. 그리고 다음과 같이 조금 더 길고 전문적인 말도 정확하게 분류해야 합니다.

 

중부 지방은 대체로 맑겠으나, 남부 지방은 구름이 많겠습니다.   날씨

올 초부터 유동성의 힘으로 주가가 일정하게 상승했습니다.   주식

이번 선거에서는 누가 이길 것 같아?   정치

퍼셉트론의 한계를 극복한 신경망이 다시 뜨고 있대.   딥러닝

 

이번에 실습할 내용은 이처럼 긴 텍스트를 읽고 이 데이터가 어떤 의미를 지니는지를 카테고리로 분류하는 연습입니다. 실습을 위해 로이터 뉴스 데이터를 사용하겠습니다. 로이터 뉴스 데이터는, 총 11,258개의 뉴스 기사가 46개의 카테고리로 나누어진 대용량 텍스트 데이터입니다. 데이터는 케라스를 통해 다음과 같이 불러올 수 있습니다.

 

# 로이터 뉴스 데이터셋 불러오기

from keras.datasets import reuters

 

불러온 데이터를 학습셋과 테스트셋으로 나누는 방법은 다음과 같습니다.

 

# 불러온 데이터를 학습셋과 테스트셋으로 나누기

(X_train, Y_train), (X_test, Y_test) = reuters.loaddata(num

words=1000, test_split=0.2)

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.