7장
7-1 Adam은 자체적인 가중치를 사용하는 적응적 옵티마이저입니다. Adam은 모델 파라미터마다 2개의 옵티마이저 가중치(평균과 분산)를 가지고 있습니다. 메모리 부족을 해결하기 위해 모델의 가중치만 분할하는 것이 아니라 옵티마이저의 상태도 분할해야 합니다(대부분의 DeepSpeed 병렬화 기법에 이미 구현되어 있습니다).
7-2 이론적으로 CPU에서 데이터 병렬화를 적용할 수 있지만 장점이 제한적입니다. 예를 들어 CPU 메모리에 모델을 복제하여 각기 다른 데이터 배치에서 여러 모델을 병렬로 훈련하는 대신 데이터 처리량을 늘리는 것이 더 합리적일 수 있습니다.