더북(TheBook)

주요 지표는 다음과 같습니다.

GPQA: 생물학, 물리학, 화학 등 박사급 지식이 필요한 초고난도 추론 능력을 평가합니다. 단순 검색으로는 답을 찾을 수 없도록 설계되어, 모델의 전문 지식 활용 능력과 깊이 있는 사고력을 측정합니다.

SWE Bench: 실제 소프트웨어 엔지니어링(실무 코딩) 능력을 평가하는 지표입니다. 모델이 실제 GitHub 오픈소스 프로젝트의 복잡한 이슈를 이해하고 스스로 코드를 수정하여 해결할 수 있는지를 나타냅니다.

MMLU(5-shot): 다양한 주제에서 모델의 일반적인 추론 능력을 평가합니다. 5-shot은 모델이 5개의 예시를 학습한 후에 테스트를 진행함을 의미합니다.

MATH: 수학적 문제 해결 능력을 평가하는 지표로, 모델이 얼마나 정확하게 수학적 문제를 풀 수 있는지를 나타냅니다.

HumanEval(제로샷): 코딩 문제 해결 능력을 평가하는 지표입니다. 제로샷은 예시 없이 바로 문제를 해결하는 능력을 테스트합니다.

최대 컨텍스트 윈도우: 한 번에 모델이 처리할 수 있는 최대 문맥 길이로, 긴 문서를 처리하는 능력에 영향을 미칩니다.

100만 토큰당 비용: 모델을 사용할 때 발생하는 비용으로, 입력과 출력에 대한 비용을 각각 나타냅니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.