더북(TheBook)

▲ 그림 7-3 긴 입력을 여러 GPU로 나누는 시퀀스 병렬화