화살표(---->) 왼쪽의 모든 값은 LLM이 받을 입력을 나타냅니다. 화살표 오른쪽에 있는 토큰 ID는 LLM이 예측해야 할 타깃 토큰 ID를 나타냅니다. 토큰 ID를 텍스트로 바꾸도록 앞의 코드를 다시 작성해 보죠.
for i in range(1, context_size+1):
context = enc_sample[:i]
desired = enc_sample[i]
print(tokenizer.decode(context), "---->", tokenizer.decode([desired]))
다음 출력에서 입력과 출력의 형태를 텍스트 형태로 볼 수 있습니다.
and ----> established and established ----> himself and established himself ----> in and established himself in ----> a