더북(TheBook)

최신 다중 GPU 전략은 보통 데이터 병렬화와 텐서 병렬화를 결합합니다. ZeRO(zero redundancy) 옵티마이저 튜토리얼에 설명된 DeepSpeed 단계 2와 3이 잘 알려진 예입니다: https://www.deepspeed.ai/tutorials/zero/

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.