Q | 다중 GPU 훈련 패러다임에는 어떤 것들이 있나요? 각각의 장점과 단점은 무엇인가요?
다중 GPU 훈련 패러다임은 두 범주로 나눌 수 있습니다. 데이터를 여러 개의 GPU에 나누어 병렬 처리하는 것과 모델 크기가 단일 GPU의 용량을 넘을 때 메모리 제약을 해결하기 위해 모델을 여러 개의 GPU로 나누는 것입니다. 데이터 병렬화는 첫 번째 범주에 속하고 모델 병렬화와 텐서(tensor) 병렬화는 두 번째 범주에 속합니다. 파이프라인(pipeline) 병렬화 같은 기법은 두 가지 아이디어를 모두 차용합니다. 또한 DeepSpeed, Colossal AI 등과 같은 소프트웨어 구현은 여러 방법을 섞은 하이브리드 기법입니다.
이 장에서는 훈련 패러다임을 몇 가지 소개하고 실전에서 어떤 것을 사용할지 조언을 제시합니다.