딥러닝 파이토치 교과서: 7.4.1 RNN 셀 구현

slide 1 of 18, currently active
slide 2 of 18
slide 3 of 18
slide 4 of 18
slide 5 of 18
slide 6 of 18
slide 7 of 18
slide 8 of 18
slide 9 of 18
slide 10 of 18
slide 11 of 18
slide 12 of 18
slide 13 of 18
slide 14 of 18
slide 15 of 18
slide 16 of 18
slide 17 of 18
slide 18 of 18

ⓓ vectors: 임베딩 벡터를 지정할 수 있습니다. 임베딩 벡터는 워드 임베딩의 결과로 나온 벡터입니다. 사전 학습된 임베딩으로는 워드투벡터(Word 2 Vector), 글로브(Glove) 등이 있으며, 파이토치에서도 nn.embedding()을 통해 단어를 랜덤한 숫자 값으로 변환한 후 가중치를 학습하는 방법을 제공합니다.

다음은 훈련과 테스트 데이터셋에 포함된(단어 집합에 포함된) 단어의 개수입니다.

Unique tokens in TEXT vocabulary: 10002
Unique tokens in LABEL vocabulary: 3

TEXT는 10002개, LABEL은 세 개의 단어로 구성되어 있습니다. LABEL은 긍정과 부정 두 개의 값만 있어야 할 것 같은데 세 개가 있다고 출력되었습니다. 왜 이러한 결과가 나왔는지 확인이 필요해 보입니다.

LABEL.vocab.stoi를 통해 현재 단어 집합의 단어와 그것에 부여된 고유 정수(인덱스)를 확인해 보겠습니다.

코드 7-11 테스트 데이터셋의 단어 집합 확인

print(LABEL.vocab.stoi)

다음은 테스트 데이터셋의 단어 집합에 대한 결과입니다.

defaultdict(<bound method Vocab._default_unk_index of <torchtext.legacy.vocab.Vocab object at 0x00000178116A3040>>, {'<unk>': 0, 'pos': 1, 'neg': 2})

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.