더북(TheBook)

 

2LSTM과 CNN의 조합을 이용한 영화 리뷰 분류하기

 

이번에 사용할 인터넷 영화 데이터베이스(Internet Movie Database, IMDB)는 영화와 관련된 정보와 출연진 정보, 개봉 정보, 영화 후기, 평점에 이르기까지 매우 폭넓은 데이터가 저장된 자료입니다. 영화에 관해 남긴 2만 5000여 개의 영화 리뷰가 담겨 있으며, 해당 영화를 긍정적으로 평가했는지 혹은 부정적으로 평가했는지도 담겨 있습니다. 앞서 다루었던 로이터 뉴스 데이터와 마찬가지로 각 단어에 대한 전처리를 마친 상태입니다. 데이터셋에서 나타나는 빈도에 따라 번호가 정해지므로 빈도가 높은 데이터를 불러와 학습시킬 수 있습니다.

데이터 전처리 과정은 로이터 뉴스 데이터와 거의 같습니다. 다만 클래스가 긍정 또는 부정 두 가지뿐이라 원-핫 인코딩 과정이 없습니다.

 

# 학습셋과 테스트셋 지정하기

(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=5000)


# 데이터 전처리

x_train = sequence.pad_sequences(x_train, maxlen=100)

x_test = sequence.pad_sequences(x_test, maxlen=100)

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.