더북(TheBook)

모델 크기와 학습 데이터 규모: LLM은 수십억에서 수조 개에 이르는 방대한 파라미터를 학습하며, 대규모 텍스트 데이터셋을 통해 다양한 언어 패턴과 복잡한 구조를 포괄적으로 이해할 수 있습니다.

트랜스포머 아키텍처 도입: 기존 언어 모델은 주로 RNN이나 LSTM처럼 순차적 아키텍처를 기반으로 했습니다. 이 방식은 텍스트를 단어 순서대로 처리해 바로 이전 단어 정보를 다음 단어로 전달하며 문장을 생성하는 방식입니다. 이러한 구조는 문맥을 이해하는 데 일정한 성능을 제공하나, 긴 문장을 처리할 때 정보가 손실될 가능성이 높고 문맥을 충분히 이해하지 못하는 경우가 발생하기도 합니다.
LLM은 기존과 달리 트랜스포머 아키텍처를 기반으로 만들어졌습니다. 셀프 어텐션 메커니즘을 사용해 문장 간 관계를 파악하고 긴 문장이나 복잡한 문장 구조도 일관된 의미를 유지하면서 언어를 이해하고 생성합니다. 트랜스포머의 병렬 처리 능력 덕분에 더 많은 데이터를 더 효율적으로 학습할 수 있어 LLM은 기존 모델들보다 근본적으로 다른 접근 방식을 취하고 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.