시퀀스 병렬화가 앞서 언급한 다른 다중 GPU 기법과 어떤 관련이 있을까요? 시퀀스 병렬화는 시퀀스 데이터를 다루고, 텐서 병렬화는 모델의 내부 구조를 다루며, 데이터 병렬화는 훈련 데이터를 분할하는 방법을 다룹니다. 이론적으로 이런 병렬화 전략은 계산에 관한 문제의 각기 다른 측면을 다루기 때문에 다양한 방법으로 이를 연결하여 훈련 과정과 추론 과정을 최적화할 수 있습니다. 하지만 시퀀스 병렬화는 다른 병렬화 기법만큼 많이 연구되지 않고 있습니다.
시퀀스 병렬화가 실제 유용하게 보이지만 앞서 언급한 병렬화 기법과 유사하게 추가적인 통신 비용이 발생합니다. 데이터 병렬화처럼 모델을 복제해야 하고 장치의 메모리에 맞아야 합니다. (구현에 따라) 또 다른 단점은 트랜스포머의 다중 GPU 훈련을 위해 입력 시퀀스를 작은 서브 시퀀스로 나누면 모델의 정확도가 감소할 수 있다는 것입니다(주로 긴 시퀀스에 모델을 적용할 때).