더북(TheBook)

3.4.1 IMDB 데이터셋

 

인터넷 영화 데이터베이스(Internet Movie Database)로부터 가져온 양극단의 리뷰 5만 개로 이루어진 IMDB 데이터셋을 사용하겠습니다.17 이 데이터셋은 훈련 데이터 2만 5,000개와 테스트 데이터 2만 5,000개로 나뉘어 있고 각각 50%는 부정, 50%는 긍정 리뷰로 구성되어 있습니다.

왜 훈련 데이터와 테스트 데이터를 나눌까요? 같은 데이터에서 머신 러닝 모델을 훈련하고 테스트해서는 절대 안 되기 때문입니다! 모델이 훈련 데이터에서 잘 작동한다는 것이 처음 만난 데이터에서도 잘 작동한다는 것을 보장하지 않습니다. 중요한 것은 새로운 데이터에 대한 모델의 성능입니다(사실 훈련 데이터의 레이블은 이미 알고 있기 때문에 이를 예측하는 모델은 필요하지 않습니다). 예를 들어 모델이 훈련 샘플과 타깃 사이의 매핑을 모두 외워 버릴 수 있습니다. 이런 모델은 처음 만나는 데이터에서 타깃을 예측하는 작업에는 쓸모가 없습니다.18 다음 장에서 이에 대해 더 자세히 살펴봅니다.

17 역주 이 데이터셋은 스탠포드 대학의 앤드류 마스(Andrew Maas)가 수집한 데이터셋입니다(https://stanford.io/2w2NUzz).

 

18 역주 훈련 데이터를 외우는 것이 전부인 학습 알고리즘을 사례 기반(instance-based) 학습이라고 하며, 대표적으로는 k-최근접 이웃(k-Nearest Neighbor) 알고리즘이 있습니다. 새로운 데이터에 대해 예측을 할 때는 가장 가까운 훈련 데이터 몇 개의 타깃을 평균(회귀)하거나 다수인 클래스를 선택(분류)합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.