더북(TheBook)

예를 들어 [4x4] 크기의 문장 임베딩 벡터와 [4x8] 크기의 쿼리, 키, 밸류 벡터가 있을 때 일반적인 어텐션 메커니즘은 연산 한 번으로 [4x8] 크기의 어텐션 스코어를 계산합니다.

만약 헤드가 4개인 멀티헤드 어텐션 구조로 계산하면 헤드가 4개이므로 각 연산 과정이 4분의 1만큼만 필요합니다. 크기가 [4x8]이었던 쿼리, 키, 밸류 백터를 4등분하여 [4x2]로 만듭니다. 이렇게 하면 자연스럽게 각 어텐션 스코어는 [4x2]가 됩니다. 이 어텐션 스코어들을 마지막에 결합(concatenate)해 주면, 크기가 [4x8]이 되어 일반적인 어텐션 메커니즘의 결과 값과 동일하게 됩니다.

이처럼 멀티헤드 어텐션은 병렬 계산으로 모델 성능을 향상시킨다는 장점이 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.