어텐션 메커니즘은 디코더가 출력 단어를 예측할 때 인코더의 전체 입력 문장을 다시 한번 참고해 예측하는 단어와 연관성이 높은 단어에 더 집중하는 방식입니다. 이 메커니즘은 특정 단어가 문맥에서 어떤 다른 단어와 밀접하게 관련되어 있는지를 판단해 모델이 중요한 정보에 집중하게 합니다.
시퀀스 투 시퀀스(Seq2Seq) 모델처럼 인코더-디코더 구조를 사용하는 모델에서는 입력 시퀀스(예 원문 문장)를 인코더가 처리해 고정된 크기의 벡터(컨텍스트 벡터)에 담아 디코더로 전달합니다. 그러나 문장이 길거나 내용이 복잡할 때 하나의 벡터에 모든 정보를 압축하는 방식은 정보 손실과 기울기 소실 문제가 발생할 수 있습니다.
정보 손실 문제는 입력 시퀀스의 모든 정보를 하나의 고정된 크기 벡터로 압축하면서, 문장이 길어질수록 중요한 정보가 컨텍스트 벡터에 충분히 담기지 못해 발생합니다.
기울기 소실은 역전파 과정에서 기울기가 점차 줄어드는 문제로, 시퀀스가 길어질수록 초기 입력에 대한 정보가 잘 전달되지 않습니다. 이에 따라 모델이 입력 문장의 앞부분에 있던 정보를 잃어버리고, 결국 출력 결과가 문맥에 맞지 않거나 중요한 정보가 빠지는 현상이 발생하게 됩니다.