• 트랜스포머 기반 언어 모델을 위한 시퀀스 병렬화를 제안한 논문: Shenggui Li et al., “Sequence Parallelism: Long Sequence Training from [a] System[s] Perspective” (2022), https://arxiv.org/abs/2105.13120
• 스케일드 점곱 어텐션 메커니즘을 제안한 원본 트랜스포머 논문: Ashish Vaswani et al., “Attention Is All You Need” (2017), https://arxiv.org/abs/1706.03762
• 원본 셀프 어텐션 메커니즘의 대안을 조사한 논문: Yi Tay et al., “Efficient Transformers: A Survey” (2020), https://arxiv.org/abs/2009.06732
• 트랜스포머의 훈련 효율성을 높이기 위한 기법을 다룬 논문: Bohan Zhuang et al., “A Survey on Efficient Training of Transformers” (2023), https://arxiv.org/abs/2302.01107