더북(TheBook)

② 레이블에 대한 전처리 부분입니다.

sequential: 데이터에 순서(sequential)가 있는지 나타내며 기본값은 True입니다. 예제의 레이블은 긍정/부정 값만 갖기 때문에 False로 설정합니다.

이번 예제에서 사용할 데이터셋은 IMDB입니다. IMDB는 영화 리뷰 5만 건이 담긴 데이터로 긍정은 2, 부정은 1로 레이블링되어 있습니다. torchtext.legacy.datasets에서 제공하는 IMDB 데이터셋을 내려받습니다.

코드 7-5 데이터셋 준비

from torchtext.legacy import datasets
train_data, test_data = datasets.IMDB.splits(TEXT, LABEL) ------ ①

datasets.IMDB를 사용하여 IMDB 데이터셋을 내려받습니다. 이때 사용되는 파라미터는 다음과 같습니다.

datasets.IMDB: 파이토치의 datasets에는 사용자들의 학습을 위해 다양한 데이터셋을 제공하고 있습니다. 이들 중에서 IMDB 데이터를 가져옵니다. 내려받은 위치로 이동하면 다음과 같은 파일들이 있습니다.

▲ 그림 7-13 내려받은 파일

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.