② 레이블에 대한 전처리 부분입니다.
ⓐ sequential: 데이터에 순서(sequential)가 있는지 나타내며 기본값은 True입니다. 예제의 레이블은 긍정/부정 값만 갖기 때문에 False로 설정합니다.
이번 예제에서 사용할 데이터셋은 IMDB입니다. IMDB는 영화 리뷰 5만 건이 담긴 데이터로 긍정은 2, 부정은 1로 레이블링되어 있습니다. torchtext.legacy.datasets에서 제공하는 IMDB 데이터셋을 내려받습니다.
코드 7-5 데이터셋 준비
from torchtext.legacy import datasets
train_data, test_data = datasets.IMDB.splits(TEXT, LABEL) ------ ①
① datasets.IMDB를 사용하여 IMDB 데이터셋을 내려받습니다. 이때 사용되는 파라미터는 다음과 같습니다.
ⓐ datasets.IMDB: 파이토치의 datasets에는 사용자들의 학습을 위해 다양한 데이터셋을 제공하고 있습니다. 이들 중에서 IMDB 데이터를 가져옵니다. 내려받은 위치로 이동하면 다음과 같은 파일들이 있습니다.
▲ 그림 7-13 내려받은 파일