밑바닥부터 만들면서 배우는 LLM: 1.1 LLM이란 무엇인가요?

SECTION 1.1 LLM이란 무엇인가요?

LLM은 사람의 텍스트를 이해하고, 생성하고, 응답하도록 고안된 신경망입니다. 이런 모델은 대용량의 텍스트 데이터에서 훈련된 심층 신경망으로, 인터넷에 공개된 전체 텍스트의 상당 부분을 사용하여 훈련됩니다.

‘대규모 언어 모델’에서 ‘대규모’는 모델의 파라미터 크기와 대량의 훈련 데이터셋을 모두 의미합니다. 이런 모델은 수백 또는 수천억 개의 파라미터(parameter)를 가지고 있습니다. 모델 파라미터는 시퀀스의 다음 단어를 예측하도록 훈련하는 과정에서 조정되는 신경망의 가중치(weight)입니다.¹ 다음 단어 예측(next-word prediction)은 언어의 고유한 순차 특징을 사용하여 텍스트 안의 맥락, 구조, 관계를 이해하는 모델을 훈련시키는 합리적인 방법입니다. 이런 매우 간단한 작업으로 강력한 모델을 만들 수 있다는 사실에 많은 연구자들이 놀랐습니다. 이후 장에서 다음 단어 훈련 과정을 단계별로 설명하고 구현해 보겠습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.