더북(TheBook)

파이프라인 병렬화는 확실히 모델 병렬화보다 낫지만 완벽하지 않으며 GPU에 유휴 시간이 발생합니다. 파이프라인 병렬화의 추가 단점은 파이프라인 단계와 이와 관련된 통신 패턴을 설계하고 구현하는 데 많은 노력이 필요하다는 것입니다. 또한 이로 인한 성능 이득이 순수한 데이터 병렬화 같은 다른 병렬화 기법에 비해 크지 않을 수 있습니다. 특히 작은 모델이거나 통신 비용이 높은 경우입니다.

최근 모델은 너무 커서 GPU 메모리에 맞지 않기 때문에 파이프라인 병렬화 대신 데이터 병렬화와 텐서 병렬화 기법을 섞는 것이 일반적입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.