더북(TheBook)

지금까지 데이터 로더에서 샘플링할 때 사용한 배치 크기 1은 설명하기에 좋습니다. 딥러닝을 사용해 본 경험이 있다면 작은 배치 크기는 훈련 과정에서 메모리를 덜 필요로 하지만 모델 업데이트에 잡음이 더 많다는 것을 알 것입니다. 일반적인 딥러닝과 마찬가지로 배치 크기에는 트레이드오프가 있고 LLM을 훈련할 때 실험해 봐야 할 하이퍼파라미터입니다.

배치 크기가 1보다 클 경우 데이터 로더로 샘플링하는 방법을 간단히 살펴보겠습니다.

dataloader = create_dataloader_v1(
    raw_text, batch_size=8, max_length=4, stride=4,
    shuffle=False
)

data_iter = iter(dataloader)
inputs, targets = next(data_iter)
print("입력:\n", inputs)
print("\n타깃:\n", targets)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.