모두의 딥러닝 개정 3판: 1 LSTM을 이용한 로이터 뉴스 카테고리 분류하기

slide 1 of 18, currently active
slide 2 of 18
slide 3 of 18
slide 4 of 18
slide 5 of 18
slide 6 of 18
slide 7 of 18
slide 8 of 18
slide 9 of 18
slide 10 of 18
slide 11 of 18
slide 12 of 18
slide 13 of 18
slide 14 of 18
slide 15 of 18
slide 16 of 18
slide 17 of 18
slide 18 of 18

1 LSTM을 이용한 로이터 뉴스 카테고리 분류하기

입력된 문장 의미를 파악하는 것은 곧 모든 단어를 종합해 하나의 카테고리로 분류하는 작업이라고 할 수 있습니다. 예를 들어 “안녕, 오늘 날씨가 참 좋네.”라는 말은 ‘인사’ 카테고리에 분류해야 합니다. 그리고 다음과 같이 조금 더 길고 전문적인 말도 정확하게 분류해야 합니다.

중부 지방은 대체로 맑겠으나, 남부 지방은 구름이 많겠습니다. → 날씨
올 초부터 유동성의 힘으로 주가가 일정하게 상승했습니다.     → 주식
이번 선거에서는 누가 이길 것 같아?                          → 정치
퍼셉트론의 한계를 극복한 신경망이 다시 뜨고 있대.           → 딥러닝

이번에 실습할 내용은 이처럼 긴 텍스트를 읽고 이 데이터가 어떤 의미를 지니는지 카테고리로 분류하는 연습입니다. 실습을 위해 로이터 뉴스 데이터를 사용하겠습니다. 로이터 뉴스 데이터는 총 1만 1,228개의 뉴스 기사가 46개의 카테고리로 나누어진 대용량 텍스트 데이터입니다. 데이터는 케라스를 통해 다음과 같이 불러오겠습니다.

# 로이터 뉴스 데이터셋 불러오기
from tensorflow.keras.datasets import reuters

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.