더북(TheBook)

파이토치는 IMDB 외에도 다양한 데이터셋이 준비되어 있습니다. 자세한 내용은 다음 URL을 참고해 주세요.

https://pytorch.org/vision/0.8/datasets.html

splits: 전체 데이터셋을 텍스트(TEXT)와 레이블(LABEL)로 분할합니다. 이후 텍스트 데이터셋은 훈련 용도로, 레이블은 테스트 용도로 사용합니다.

다음은 IMDB를 내려받은 결과입니다.

downloading aclImdb_v1.tar.gz
100%1                                                     I 84.1M/84.1M [00:38<00:00, 2.21MB/s]

데이터셋을 분리하면 훈련 데이터셋이 2만 5000개, 테스트 데이터셋이 2만 5000개가 됩니다.

훈련 데이터셋에 어떤 데이터들이 포함되어 있는지 확인해 봅시다.

코드 7-6 훈련 데이터셋 내용 확인

print(vars(train_data.examples[0])) ------ 데이터셋의 내용을 보고자 할 때는 examples를 사용
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.