独立第三方评测机构 Artificial Analysis 发布的综合智能指数 — 聚合 10 个高难度评测,text-only、English-only,按 4 大类各 25% 加权计算。被誉为 AI 领域的「消费者报告」。
随着 AI 技术指数级迭代,传统学术基准测试正面临前所未有的挑战:
独立商业化研究实验室,非学术机构或科技巨头主导:
防止厂商针对评测账号进行「特供版」优化:
在 GitHub、Reddit (r/LocalLLaMA) 等社区被认为是「最难以被操纵」的基准。特别赞赏其对长文本推理、幻觉率、价格/性能比的综合分析。
Anthropic Claude Opus 4.5 系统卡引用 AA 数据;OpenAI o1 系统卡、Google Gemini 3 Flash 发布博客多次提及 AA 基准。
Fortune 500 强企业 CTO 将 AA 象限图作为模型选型的重要决策工具,尤其在权衡私有化部署成本与模型智能水平时。
zero-shot instruction promptedTemp=0;推理 Temp=0.6Ubuntu 22.04 / Python 3.12所有评测由 Artificial Analysis 独立进行,不依赖实验室自报结果。确保评测的客观性和可比性。
41.7% 权重分配给 Agent 相关任务(GDPval + τ²-Bench + Terminal-Bench),强调"做事"而非"答题"。
多个 benchmark 设计为 "Google-proof",当前最强模型在 CritPt 仅达个位数准确率。
clamp((ELO-500)/2000)50% Accuracy + 50% (1−Hallucination Rate)v4.0 版本的最大变革:从「Chatbot」到「Agent」的范式转移
入选 benchmark 必须满足的「反饱和」与「实用主义」标准:
GDPval-AA 对应美国 GDP 贡献最大的 44 种白领职业;τ²-Bench 测试复杂业务处理能力,关注世界状态的正确改变。
摒弃传统代码片段生成测试(如 HumanEval),转向 DevOps Agent 试金石:系统管理、Git 操作、Docker 部署。
AA-Omniscience 严厉惩罚错误但不惩罚拒答,迫使模型在「自信胡说」和「诚实拒答」间权衡。
HLE 替代已饱和的 MMLU,经过对抗性筛选;CritPt 来自未发表物理难题,每题平均审查 40+ 小时。
测试 AI 在 44 个职业和 9 个行业的真实工作任务。由 OpenAI 与平均 14 年经验的行业专家合作开发。模型在 agentic loop 中运行,具备 Shell 访问和网页浏览能力。
clamp((ELO-500)/2000)| 1 | GPT-5.2 (xhigh) | ELO 1462 |
| 2 | Claude Opus 4.5 | ELO 1416 |
| 3 | GPT-5.2 (medium) | ELO 1409 |
双控制环境:AI 代理和用户都能修改共享世界状态。专注于电信技术支持场景,使用 Dec-POMDP 建模。测试问题解决和有效沟通能力。
| 1 | GLM-4.7-Flash (R) | 98.8% |
| 2 | Kimi K2.5 (R) | 95.9% |
| 3 | GLM-4.7 (R) | 95.9% |
评估 AI 代理在真实终端环境中的能力:编译代码、训练模型、配置服务器、玩游戏、调试系统。使用 Docker 环境中的验证脚本进行程序化评估。
| 1 | GPT-5.2 (xhigh) | 47.0% |
| 2 | Claude Opus 4.5 (R) | 47.0% |
| 3 | GPT-5.1 (high) | 45.5% |
科学家策划的编码基准,来自 16 个科学学科的真实实验室研究问题。每个问题需要:知识回忆、推理和代码合成。
| 1 | Gemini 3 Pro (high) | 56.1% |
| 2 | GPT-5.2 Codex | 54.6% |
| 3 | GPT-5.2 (xhigh) | 52.1% |
AA 榜单更新极其激进,核心逻辑是「动态难度调整」:
v4.0 更新中的关键变动:
AA 运作模式接近「受邀制」与「主动监测」结合的实验室模式:
hello@artificialanalysis.ai 申请如何让提出的 Benchmark 被接受:
AA 开发的轻量级 Agent 评测框架,设计哲学是「Get out of the way(不挡路)」:
pip install stirrup
LLM-as-a-Judge 机制用于非选择题评分:
为公平对比不同 Tokenizer 的模型速度:
模拟真实用户网络环境:
评估模型「开源程度」的量化指标:
基于 AA-Omniscience 数据集构建:
多阶段正则表达式方法,支持多种格式回退:
\boxed{answer} LaTeX 格式不同 benchmark 使用不同的 LLM 作为评判器:
16,384 tokens