상대 위치 임베딩은 토큰의 절대 위치에 초점을 맞추는 대신 상대적인 위치 또는 토큰 사이의 거리를 강조합니다. 이는 모델이 정확한 위치가 아니라 멀리 떨어져 있는 정도를 바탕으로 관계를 학습한다는 의미입니다. 이런 방식은 모델이 길이가 다른 시퀀스에도 더 잘 일반화될 수 있다는 것입니다. 심지어 훈련 과정에서 본 적이 없는 길이의 시퀀스에 대해서도 그렇습니다.
두 종류의 위치 임베딩은 LLM이 토큰 사이의 순서와 관계를 이해하는 능력을 보강하여 정확하고 맥락을 고려한 예측을 만드는 데 목적이 있습니다. 둘 중 어떤 것을 선택하느냐는 애플리케이션과 처리하려는 데이터의 성질에 따라 달라지는 경우가 많습니다.
오픈AI의 GPT 모델은 원본 트랜스포머 모델의 위치 임베딩과 같이 고정되거나 사전에 정의된 임베딩이 아니라 훈련 과정에서 최적화되는 절대 위치 임베딩을 사용합니다. 이 최적화 과정은 모델 훈련의 일부로 수행됩니다. 지금은 초깃값으로 채워진 위치 임베딩을 만들어 LLM 입력을 준비해 보죠.