더북(TheBook)

이제 IMDB 데이터셋을 사용하여 파이토치에서 RNN 계층과 셀을 구현해 보겠습니다.

Note ≡ | IMDB 데이터셋

IMDB 데이터셋은 영화 리뷰에 대한 데이터 5만 개로 구성되어 있습니다. 이것을 훈련 데이터 2만 5000개와 테스트 데이터 2만 5000개로 나누며, 각각 50%씩 긍정 리뷰와 부정 리뷰가 있습니다. 이 데이터는 이미 전처리가 되어 있어 각 리뷰가 숫자로 변환되어 있습니다.

스탠포드 대학에서 2011년에 낸 논문에서 이 데이터를 소개했으며, 당시 논문에서는 IMDB 데이터셋을 훈련 데이터와 테스트 데이터 50:50 비율로 분할하여 88.89%의 정확도를 얻었다고 소개했습니다.

IMDB 영화 리뷰 데이터셋은 imdb.load_data() 메서드로 바로 내려받아 사용할 수 있도록 지원하고 있습니다. 데이터셋에 대한 더 자세한 내용은 https://www.imdb.com/interfaces/를 확인하세요.

이제 RNN 셀부터 파이토치 코드를 작성해 보겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.