▼ 표 2-6 LLM 모델별 순위표
* 신규 모델이 계속 출시되기 때문에 표의 내용은 실시간으로 변경될 수 있습니다.
|
모델 |
GPQA |
SWE Bench |
|
Gemini 3 Pro |
91.90% |
76.20% |
|
GPT-5.1 |
88.10% |
76.30% |
|
Grok 4 |
87.50% |
75.00% |
|
GPT-5 |
87.30% |
74.90% |
|
Claude Opus 4.5 |
87.00% |
80.90% |
|
Gemini 2.5 Pro |
86.40% |
59.60% |
이 표는 각 모델의 성능과 비용을 비교해, 사용자가 어떤 모델이 특정 작업에 적합한지 판단하는 데 도움을 줍니다.