밑바닥부터 만들면서 배우는 LLM: 2.6 슬라이딩 윈도로 데이터 샘플링하기 -3

다음으로 조금 더 흥미로운 텍스트 구절을 만들기 위해 데이터셋에 있는 처음 50개 토큰을 삭제합니다.

enc_sample = enc_text[50:]

다음 단어 예측 작업을 위해 입력-타깃 쌍을 만드는 가장 쉽고 직관적인 방법 중 하나는 입력 토큰을 담은 x와 입력에서 토큰 하나만큼 이동한 타깃을 담은 y 변수를 만드는 것입니다.

context_size = 4 ----- 문맥 크기는 입력에 얼마나 많은 토큰을 포함할지 결정합니다.
x = enc_sample[:context_size]
y = enc_sample[1:context_size+1]
print(f"x: {x}")
print(f"y:      {y}")

앞의 코드를 실행하면 다음과 같은 출력을 얻습니다.

x: [290, 4920, 2241, 287]
y:      [4920, 2241, 287, 257]

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.