밑바닥부터 만들면서 배우는 LLM: 2.6 슬라이딩 윈도로 데이터 샘플링하기 -12

first_batch 변수는 2개의 텐서를 담고 있습니다. 첫 번째 텐서는 입력 토큰 ID를 저장하고 있고, 두 번째 텐서는 타깃 토큰 ID를 저장하고 있습니다. max_length가 4이므로 두 텐서는 4개의 토큰 ID를 가지고 있습니다. 입력 크기 4는 상당히 작은 크기로, 간단한 설명을 위해 사용했습니다. 일반적으로 LLM을 훈련할 때는 적어도 256 크기의 입력을 사용합니다.

stride=1의 의미를 이해하기 위해 이 데이터셋에서 또 다른 배치를 추출해 보죠.

second_batch = next(data_iter)
print(second_batch)

두 번째 배치의 결과는 다음과 같습니다.

[tensor([[ 367, 2885, 1464, 1807]]), tensor([[2885, 1464, 1807, 3619]])]

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.