SECTION 7.3 연습문제
7-1 일반적인 확률적 경사 하강법 옵티마이저로 모델을 훈련할 때 잘 맞는 텐서 병렬화를 직접 구현한다고 가정해 보죠. 하지만 디데릭 P. 킹마(Diederik P. Kingma)와 지미 바(Jimmy Ba)가 제안한 Adam 옵티마이저를 사용하려면 장치에서 메모리 부족이 발생합니다. 왜 이런 문제가 생겼을까요?
7-2 GPU가 없어 CPU로 데이터 병렬화를 적용하려 한다고 가정해 보죠. 이 아이디어가 좋은 생각일까요?