앞서 간단하게 하려고 매우 작은 임베딩 크기를 선택했습니다. 이제 조금 더 현실적이고 유용한 임베딩 크기를 선택해서 입력 토큰을 256차원의 벡터 표현으로 인코딩해 보겠습니다. 원본 GPT-3 모델이 사용한 차원(GPT-3의 임베딩 크기는 12,288차원입니다)보다는 작지만 실험에는 적합한 크기입니다. 또한 토큰 ID를 앞서 구현한 50,257 크기의 어휘사전을 가진 BPE 토크나이저로 만들었다고 가정합니다.
vocab_size = 50257
output_dim = 256
token_embedding_layer = torch.nn.Embedding(vocab_size, output_dim)
token_embedding_layer를 사용해 데이터 로더를 통해 샘플링한 각 배치에 있는 토큰 ID를 256차원 벡터로 임베딩합니다. 배치 크기가 8이고 4개의 토큰씩 들어 있다면 만들어진 벡터는 8 × 4 × 256 텐서가 될 것입니다.