다음으로 조금 더 흥미로운 텍스트 구절을 만들기 위해 데이터셋에 있는 처음 50개 토큰을 삭제합니다.
enc_sample = enc_text[50:]
다음 단어 예측 작업을 위해 입력-타깃 쌍을 만드는 가장 쉽고 직관적인 방법 중 하나는 입력 토큰을 담은 x와 입력에서 토큰 하나만큼 이동한 타깃을 담은 y 변수를 만드는 것입니다.
context_size = 4 ----- 문맥 크기는 입력에 얼마나 많은 토큰을 포함할지 결정합니다.
x = enc_sample[:context_size]
y = enc_sample[1:context_size+1]
print(f"x: {x}")
print(f"y: {y}")
앞의 코드를 실행하면 다음과 같은 출력을 얻습니다.
x: [290, 4920, 2241, 287] y: [4920, 2241, 287, 257]