더북(TheBook)

트랜스포머 기반 언어 모델을 위한 시퀀스 병렬화를 제안한 논문: Shenggui Li et al., “Sequence Parallelism: Long Sequence Training from [a] System[s] Perspective” (2022), https://arxiv.org/abs/2105.13120

스케일드 점곱 어텐션 메커니즘을 제안한 원본 트랜스포머 논문: Ashish Vaswani et al., “Attention Is All You Need” (2017), https://arxiv.org/abs/1706.03762

원본 셀프 어텐션 메커니즘의 대안을 조사한 논문: Yi Tay et al., “Efficient Transformers: A Survey” (2020), https://arxiv.org/abs/2009.06732

트랜스포머의 훈련 효율성을 높이기 위한 기법을 다룬 논문: Bohan Zhuang et al., “A Survey on Efficient Training of Transformers” (2023), https://arxiv.org/abs/2302.01107

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.