데이터셋을 완전히 활용하기 위해 스트라이드를 4로 늘렸습니다(한 토큰도 건너뛰지 않습니다). 배치 사이에 중첩이 있으면 과대적합이 증가할 수 있는데 이렇게 하면 과대적합을 피할 수 있습니다.