더북(TheBook)

화살표(---->) 왼쪽의 모든 값은 LLM이 받을 입력을 나타냅니다. 화살표 오른쪽에 있는 토큰 ID는 LLM이 예측해야 할 타깃 토큰 ID를 나타냅니다. 토큰 ID를 텍스트로 바꾸도록 앞의 코드를 다시 작성해 보죠.

for i in range(1, context_size+1):
    context = enc_sample[:i]
    desired = enc_sample[i]
    print(tokenizer.decode(context), "---->", tokenizer.decode([desired]))

다음 출력에서 입력과 출력의 형태를 텍스트 형태로 볼 수 있습니다.

and ---->  established
 and established ---->  himself
 and established himself ---->  in
 and established himself in ---->  a
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.