밑바닥부터 만들면서 배우는 LLM: 2.8 단어 위치 인코딩하기 -2

원칙적으로, 결정론적이고 위치에 독립적인 토큰 ID의 임베딩은 재현 가능성의 목적으로 좋습니다. 하지만 LLM의 셀프 어텐션 메커니즘 자체가 위치에 구애받지 않기 때문에 LLM에 추가적인 위치 정보를 주입하는 것이 도움이 됩니다.

이를 위해 크게 두 종류의 위치를 고려한 임베딩을 사용할 수 있습니다. 상대 위치 임베딩과 절대 위치 임베딩입니다. 절대 위치 임베딩은 시퀀스의 특정 위치에 직접 연관됩니다. 입력 시퀀스의 각 위치에 대해서 고유한 임베딩이 토큰 임베딩에 더해져 정확한 위치 정보를 추가합니다. 예를 들어 그림 2-18과 같이 첫 번째 토큰은 특정 위치 임베딩을 사용하고, 두 번째 토큰은 또 다른 고유한 위치 임베딩을 사용하는 식입니다.

▲ 그림 2-18 위치 임베딩을 토큰 임베딩에 더해서 LLM을 위한 입력 임베딩을 만듭니다. 위치 임베딩 벡터는 원본 토큰 임베딩과 동일한 차원을 가집니다. 간단하게 나타내기 위해 토큰 임베딩의 값을 1로 표시했습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.