더북(TheBook)

전체 네트워크가 하나의 GPU에 들어가지 못하여 생기는 GPU 메모리 제약을 다루기 위한 좋은 전략입니다. 하지만 텐서 병렬화 같은 여러 GPU를 사용하는 더 효율적인 방법이 있습니다. 모델 병렬화의 체인 구조(GPU 1의 층 1 → GPU 2의 층 2 → …)가 병목을 만들기 때문입니다. 다른 말로 하면 모델 병렬화의 주요 단점은 GPU가 다른 장치의 작업이 끝나기를 기다려야 한다는 점입니다. 이렇게 되면 GPU에 다른 장치의 출력에 대한 의존성이 생기기 때문에 병렬로 작업을 처리할 수 없습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.