앞의 print 명령은 임베딩 층에 있는 가중치 행렬을 출력합니다.
Parameter containing: tensor([[ 0.3374, -0.1778, -0.1690], [ 0.9178, 1.5810, 1.3010], [ 1.2753, -0.2010, -0.1606], [-0.4015, 0.9666, -1.1481], [-1.1589, 0.3255, -0.6315], [-2.8400, -0.7849, -1.4096]], requires_grad=True)
임베딩 층의 가중치 행렬은 작고 랜덤한 값을 담고 있습니다. 이 값은 LLM 최적화의 일부로 LLM 훈련 과정에서 최적화됩니다. 또한 이 가중치 행렬은 행이 6개이고 열이 3개입니다. 어휘사전에 있는 6개의 토큰 각각에 하나의 행이 할당되고 3개의 임베딩 차원 각각에 하나의 열이 할당된 것입니다.