더북(TheBook)

앞의 print 명령은 임베딩 층에 있는 가중치 행렬을 출력합니다.

Parameter containing:
tensor([[ 0.3374, -0.1778, -0.1690],
        [ 0.9178,  1.5810,  1.3010],
        [ 1.2753, -0.2010, -0.1606],
        [-0.4015,  0.9666, -1.1481],
        [-1.1589,  0.3255, -0.6315],
        [-2.8400, -0.7849, -1.4096]], requires_grad=True)

임베딩 층의 가중치 행렬은 작고 랜덤한 값을 담고 있습니다. 이 값은 LLM 최적화의 일부로 LLM 훈련 과정에서 최적화됩니다. 또한 이 가중치 행렬은 행이 6개이고 열이 3개입니다. 어휘사전에 있는 6개의 토큰 각각에 하나의 행이 할당되고 3개의 임베딩 차원 각각에 하나의 열이 할당된 것입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.