ⓓ vectors: 임베딩 벡터를 지정할 수 있습니다. 임베딩 벡터는 워드 임베딩의 결과로 나온 벡터입니다. 사전 학습된 임베딩으로는 워드투벡터(Word 2 Vector), 글로브(Glove) 등이 있으며, 파이토치에서도 nn.embedding()을 통해 단어를 랜덤한 숫자 값으로 변환한 후 가중치를 학습하는 방법을 제공합니다.
다음은 훈련과 테스트 데이터셋에 포함된(단어 집합에 포함된) 단어의 개수입니다.
Unique tokens in TEXT vocabulary: 10002 Unique tokens in LABEL vocabulary: 3
TEXT는 10002개, LABEL은 세 개의 단어로 구성되어 있습니다. LABEL은 긍정과 부정 두 개의 값만 있어야 할 것 같은데 세 개가 있다고 출력되었습니다. 왜 이러한 결과가 나왔는지 확인이 필요해 보입니다.
LABEL.vocab.stoi를 통해 현재 단어 집합의 단어와 그것에 부여된 고유 정수(인덱스)를 확인해 보겠습니다.
코드 7-11 테스트 데이터셋의 단어 집합 확인
print(LABEL.vocab.stoi)
다음은 테스트 데이터셋의 단어 집합에 대한 결과입니다.
defaultdict(<bound method Vocab._default_unk_index of <torchtext.legacy.vocab.Vocab object at 0x00000178116A3040>>, {'<unk>': 0, 'pos': 1, 'neg': 2})