밑바닥부터 만들면서 배우는 LLM: 2.8 단어 위치 인코딩하기 -4

앞서 간단하게 하려고 매우 작은 임베딩 크기를 선택했습니다. 이제 조금 더 현실적이고 유용한 임베딩 크기를 선택해서 입력 토큰을 256차원의 벡터 표현으로 인코딩해 보겠습니다. 원본 GPT-3 모델이 사용한 차원(GPT-3의 임베딩 크기는 12,288차원입니다)보다는 작지만 실험에는 적합한 크기입니다. 또한 토큰 ID를 앞서 구현한 50,257 크기의 어휘사전을 가진 BPE 토크나이저로 만들었다고 가정합니다.

vocab_size = 50257
output_dim = 256
token_embedding_layer = torch.nn.Embedding(vocab_size, output_dim)

token_embedding_layer를 사용해 데이터 로더를 통해 샘플링한 각 배치에 있는 토큰 ID를 256차원 벡터로 임베딩합니다. 배치 크기가 8이고 4개의 토큰씩 들어 있다면 만들어진 벡터는 8 × 4 × 256 텐서가 될 것입니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.