IMDB 데이터셋을 내려받은 후 전처리를 진행합니다.

    코드 7-20 데이터셋 내려받기 및 전처리

    start = time.time()
    TEXT = torchtext.legacy.data.Field(sequential=True, batch_first=True, lower=True)
    LABEL = torchtext.legacy.data.Field(sequential=False, batch_first=True)
    
    from torchtext.legacy import datasets
    train_data, test_data = datasets.IMDB.splits(TEXT, LABEL) ------ 역시 IMDB를 사용합니다.
    train_data, valid_data = train_data.split(split_ratio=0.8)
    
    TEXT.build_vocab(train_data, max_size=10000, min_freq=10, vectors=None)
    LABEL.build_vocab(train_data)
    
    BATCH_SIZE = 100
    device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

    BucketIterator()를 이용하여 훈련, 검증, 테스트 데이터셋으로 분리합니다.

    코드 7-21 데이터셋 분리

    train_iterator, valid_iterator, test_iterator = torchtext.legacy.data.BucketIterator.splits((train_data, valid_data, test_data), batch_size=BATCH_SIZE, device=device)
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.