더북(TheBook)

앞의 print 명령은 임베딩 층에 있는 가중치 행렬을 출력합니다.

Parameter containing:
tensor([[ 0.3374, -0.1778, -0.1690],
        [ 0.9178,  1.5810,  1.3010],
        [ 1.2753, -0.2010, -0.1606],
        [-0.4015,  0.9666, -1.1481],
        [-1.1589,  0.3255, -0.6315],
        [-2.8400, -0.7849, -1.4096]], requires_grad=True)

임베딩 층의 가중치 행렬은 작고 랜덤한 값을 담고 있습니다. 이 값은 LLM 최적화의 일부로 LLM 훈련 과정에서 최적화됩니다. 또한 이 가중치 행렬은 행이 6개이고 열이 3개입니다. 어휘사전에 있는 6개의 토큰 각각에 하나의 행이 할당되고 3개의 임베딩 차원 각각에 하나의 열이 할당된 것입니다.