마스크드 셀프 어텐션 메커니즘의 작동 방식은 다음과 같습니다.
• 마스킹(masking): 디코더에서 타임 스텝마다 현재 단어의 다음 단어들을 마스킹 처리합니다. 마스킹은 특정 위치의 값을 0이나 -∞(무한대)로 설정하여 해당 위치의 정보에 접근하지 못하게 하는 방법입니다. 이렇게 하면 미래 단어에 대해 어텐션 값이 0이 되어 디코더는 다음에 나올 단어 정보를 보지 못합니다.
• 셀프 어텐션 적용: 마스킹된 상태에서 셀프 어텐션이 계산됩니다. 현재 단어와 이전 단어 간 어텐션이 이루어지며, 디코더는 현재 단어와 그 이전 단어에만 집중해 필요한 정보에 가중치를 부여합니다.
• 출력 생성: 마스킹된 컨텍스트를 기반으로 디코더는 다음 단어를 예측하고 생성합니다. 이에 따라 디코더는 한 번에 한 단어씩 차례대로 예측하며, 전체 시퀀스가 올바른 순서로 생성됩니다.