더북(TheBook)

7.1.5 시퀀스 병렬화

시퀀스 병렬화(sequence parallelism)는 트랜스포머(transformer) 기반 LLM으로 긴 시퀀스를 처리할 때 발생하는 계산 병목을 해결하기 위해서 고안되었습니다. 조금 더 구체적으로 트랜스포머의 단점 하나는 (원본 스케일드 점곱 어텐션(scaled dot-product attention)으로 구현된) 셀프 어텐션 메커니즘(self-attention mechanism)의 계산 복잡도가 입력 시퀀스 길이의 제곱에 비례한다는 것입니다. 물론 원본 어텐션 메커니즘보다 효율적이고 복잡도가 선형적으로 증가하는 다른 방법도 있습니다.

하지만 효율적인 셀프 어텐션 메커니즘은 인기가 많지 않고 이 글을 쓰는 시점에 대부분의 사람들은 여전히 원본 스케일드 점곱 어텐션 메커니즘을 좋아합니다. 그림 7-3에서 보듯이 시퀀스 병렬화는 입력 시퀀스를 작은 청크(chunk)로 나누어 여러 GPU에 분할하여 셀프 어텐션 메커니즘의 계산 메모리 제약을 감소시킵니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.