first_batch 변수는 2개의 텐서를 담고 있습니다. 첫 번째 텐서는 입력 토큰 ID를 저장하고 있고, 두 번째 텐서는 타깃 토큰 ID를 저장하고 있습니다. max_length가 4이므로 두 텐서는 4개의 토큰 ID를 가지고 있습니다. 입력 크기 4는 상당히 작은 크기로, 간단한 설명을 위해 사용했습니다. 일반적으로 LLM을 훈련할 때는 적어도 256 크기의 입력을 사용합니다.
stride=1의 의미를 이해하기 위해 이 데이터셋에서 또 다른 배치를 추출해 보죠.
second_batch = next(data_iter)
print(second_batch)
두 번째 배치의 결과는 다음과 같습니다.
[tensor([[ 367, 2885, 1464, 1807]]), tensor([[2885, 1464, 1807, 3619]])]