더북(TheBook)

 

SECTION 7.3 연습문제

7-1 일반적인 확률적 경사 하강법 옵티마이저로 모델을 훈련할 때 잘 맞는 텐서 병렬화를 직접 구현한다고 가정해 보죠. 하지만 디데릭 P. 킹마(Diederik P. Kingma)와 지미 바(Jimmy Ba)가 제안한 Adam 옵티마이저를 사용하려면 장치에서 메모리 부족이 발생합니다. 왜 이런 문제가 생겼을까요?

7-2 GPU가 없어 CPU로 데이터 병렬화를 적용하려 한다고 가정해 보죠. 이 아이디어가 좋은 생각일까요?

정답 확인

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.