확인 결과 pos(positive)(긍정), neg(negative)(부정) 외에 <unk>가 있습니다. 일반적으로 <unk>는 사전에 없는 단어를 의미합니다. 따라서 예제에서 사용하는 것은 pos와 neg가 될 것입니다.
전처리가 완료되었기 때문에 BucketIterator()를 이용하여 데이터셋을 메모리로 가져옵니다.
코드 7-12 데이터셋 메모리로 가져오기
BATCH_SIZE = 64
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
embeding_dim = 100 ------ 각 단어를 100차원으로 조정(임베딩 계층을 통과한 후 각 벡터의 크기)
hidden_size = 300 ------ ①
train_iterator, valid_iterator, test_iterator = torchtext.legacy.data.BucketIterator.splits(
(train_data, valid_data, test_data),
batch_size=BATCH_SIZE,
device=device) ------ ②