다음은 어텐션이 적용되지 않은 모델에서 사용하는 네트워크와 학습 결과입니다.
random sentence ['how could i forget', 'comment pourraisje oublier '] Input : 13366 Output : 25937 Encoder( (embedding): Embedding(13366, 256) (gru): GRU(256, 512) ) Decoder( (embedding): Embedding(25937, 256) (gru): GRU(256, 512) (out): Linear(in_features=512, out_features=25937, bias=True) (softmax): LogSoftmax(dim=1) ) 5000 4.8727 10000 4.6251 15000 4.5742 20000 4.5565 25000 4.4561 30000 4.5035 35000 4.5094 40000 4.4538 45000 4.4900 50000 4.4364 55000 4.4599 60000 4.4883 65000 4.4649 70000 4.4384 75000 4.4197
학습이 진행될수록 오차가 줄어들고 있습니다.