파이토치는 IMDB 외에도 다양한 데이터셋이 준비되어 있습니다. 자세한 내용은 다음 URL을 참고해 주세요.
https://pytorch.org/vision/0.8/datasets.html
ⓑ splits: 전체 데이터셋을 텍스트(TEXT)와 레이블(LABEL)로 분할합니다. 이후 텍스트 데이터셋은 훈련 용도로, 레이블은 테스트 용도로 사용합니다.
다음은 IMDB를 내려받은 결과입니다.
downloading aclImdb_v1.tar.gz
100%1 I 84.1M/84.1M [00:38<00:00, 2.21MB/s]
데이터셋을 분리하면 훈련 데이터셋이 2만 5000개, 테스트 데이터셋이 2만 5000개가 됩니다.
훈련 데이터셋에 어떤 데이터들이 포함되어 있는지 확인해 봅시다.
코드 7-6 훈련 데이터셋 내용 확인
print(vars(train_data.examples[0])) ------ 데이터셋의 내용을 보고자 할 때는 examples를 사용