▼ 표 2-5 GPT, BERT, T5 비교
|
특성 |
GPT |
BERT |
T5 |
|
전체 구조 |
트랜스포머 디코더 |
트랜스포머 인코더 |
트랜스포머 인코더-디코더 |
|
방향성 |
단방향(왼쪽에서 오른쪽) |
양방향 |
양방향 |
|
주요 학습 방식 |
인과적 언어 모델링(CLM) |
마스크드 언어 모델링(MLM), 다음 문장 예측(NSP) |
텍스트-투-텍스트 |
|
입력 처리 |
순차 처리 |
전체 문장을 한 번에 처리 |
전체 문장을 한 번에 처리 |
|
주요 응용 분야 |
텍스트 생성, 대화 시스템 |
텍스트 분류, 개체명 인식, 질의응답 |
번역, 요약, 질의응답, 텍스트 생성 |
|
특화 기능 |
연속적인 텍스트 생성 |
문맥 이해와 의미 파악 |
다양한 NLP 작업을 단일 형식으로 처리 |
|
문맥 이해 |
이전 단어들만 고려 |
전체 문장의 맥락 고려 |
전체 문장의 맥락 고려 |
|
출력 형태 |
다음 단어 예측 |
각 단어의 문맥화된 표현 |
텍스트 시퀀스 |
|
학습 데이터 요구량 |
매우 큼 |
중간 |
큼 |
|
미세 조정(파인튜닝) |
다양한 작업에 적용 가능 |
특정 작업에 맞춰 쉽게 조정 가능 |
다양한 작업에 쉽게 적용 가능 |
|
대표적 모델 |
GPT-3, GPT-4, GPT-5 |
BERT, RoBERTa |
T5, mT5 |
|
장점 |
강력한 텍스트 생성 능력 |
다양한 NLP 작업에서 우수한 성능 |
다양한 NLP 작업을 단일 모델로 처리 |
|
단점 |
양방향 문맥 이해에 한계 |
텍스트 생성에는 상대적으로 약함 |
큰 모델 크기로 인한 계산 비용 |