더북(TheBook)

GPT 모델은 위 그림에서 볼 수 있는 세 모델(GPT, GPT-2, GPT-3)과 2023년 3월에 발표한 GPT-4까지 여러 모델이 나왔다. GPT에서는 파라미터 개수가 110m이었으나, GPT-3에서는 175b까지 늘었다. 파라미터 개수와 크기는 머신러닝 모델의 크기를 측정하는 방법 중 하나다. 모델의 파라미터는 가중치(weight)와 편향(bias) 같은 모델 내부의 조절 가능한 매개 변수에 직접 영향을 받기 때문이다.

모델의 파라미터 크기는 모델의 구조, 즉 층(layer)의 개수와 크기, 그리고 각 층에서 사용하는 필터(filter)와 커널(kernel)의 개수와 크기 등에 따라 결정된다. 파라미터 크기가 크면 모델의 용량이 커지기 때문에 더 복잡하고 다양한 특징을 학습할 수 있다. 하지만 파라미터 크기가 커질수록 모델의 학습 시간이 더 오래 걸리고, 과적합 같은 문제가 발생할 가능성도 높아진다.

2022년 11월 공개된 ChatGPT는 GPT-3.5 모델로 ChatGPT라는 이름에서도 알 수 있는 것처럼 대화 방식으로 상호 작용하는 대규모 언어 모델(LLM)이다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.