멀티헤드 어텐션
멀티헤드 어텐션(multi-head attention)은 어텐션 헤드(attention head) 여러 개를 병렬로 사용해 입력 데이터의 다양한 부분에 동시에 집중할 수 있게 하는 트랜스포머의 핵심 기법입니다. 각 어텐션 헤드는 독립적으로 어텐션을 계산해 서로 다른 관점에서 입력을 분석하고, 이를 결합해 풍부한 문맥 정보를 모델에 제공합니다.
어텐션 헤드는 입력 데이터를 독립적으로 분석하는 유닛으로, 각 헤드는 별도의 쿼리, 키, 밸류 벡터를 통해 특정 시점에서 중요한 단어 간 관계를 학습합니다. 여러 개의 어텐션 헤드를 사용하면 모델이 문장 내 다양한 관계와 의미를 더 효과적으로 파악할 수 있습니다.