AAII v4.0.2 | JAN 2026

Artificial
Analysis

独立第三方评测机构 Artificial Analysis 发布的综合智能指数 — 聚合 10 个高难度评测,text-only、English-only,按 4 大类各 25% 加权计算。被誉为 AI 领域的「消费者报告」。

Benchmarks
10
Confidence 95%
< ±1%
Agent Weight
41.7%
Categories
4 × 25%

01 AI 评测的「信任危机」

传统基准的困境

The Problem

随着 AI 技术指数级迭代,传统学术基准测试正面临前所未有的挑战:

饱和效应
MMLU 等测试顶级模型得分普遍 >90%,失去区分度
数据污染
测试集题目被混入预训练语料,高分 ≠ 真实泛化智能
自报分数
厂商自报结果存在「水分」,缺乏独立验证
"高分不再代表真实的泛化智能,而仅仅是「背题」能力的体现。" — 行业观察

独立基准的崛起

The Solution

Artificial Analysis 作为独立第三方评测机构异军突起:

定位
AI 领域的「消费者报告」(Consumer Reports)
核心价值
无偏见 (Unbiased)、难以操纵 (Gaming-resistant)
行业地位
2024-2026 年间确立事实标准地位

02 组织与公信力

创始团队

Founding Team

独立商业化研究实验室,非学术机构或科技巨头主导:

Micah Hill-Smith
CEO · 前麦肯锡战略咨询,构建法律 AI 助手时发现评测数据匮乏
George Cameron
CPO · 负责技术架构与评测体系设计
创立初衷
回答「哪个模型最适合我的用例?」「真实的成本与速度权衡是什么?」

神秘顾客机制

Mystery Shopper Policy

防止厂商针对评测账号进行「特供版」优化:

匿名账号
不使用机构域名,注册普通匿名账号
真实付费
实际付费调用 API,模拟真实企业用户体验
独立基础设施
Google Cloud us-central1 区域 VM,非厂商演示环境
"评测结果反映的是「客户在真实生产环境中获得的性能」,而非实验室条件下的理论峰值。" — AA 方法论

社区认可

Community Recognition

在 GitHub、Reddit (r/LocalLLaMA) 等社区被认为是「最难以被操纵」的基准。特别赞赏其对长文本推理、幻觉率、价格/性能比的综合分析。

行业采纳

Industry Adoption

Anthropic Claude Opus 4.5 系统卡引用 AA 数据;OpenAI o1 系统卡、Google Gemini 3 Flash 发布博客多次提及 AA 基准。

企业决策

Enterprise Use

Fortune 500 强企业 CTO 将 AA 象限图作为模型选型的重要决策工具,尤其在权衡私有化部署成本与模型智能水平时。

03 AAII 是什么

官方定义

Official Definition
官方入口
AAII 评测页
方法论
Intelligence Benchmarking Methodology
定位
text-only、English-only 综合指数
版本
v4.0.2 (January 2026)
官方原句
"Intelligence Index is calculated as a weighted average across four categories, each contributing 25% to the overall score." — AA Methodology

评测设置

Evaluation Settings
Prompt
zero-shot instruction prompted
温度
非推理 Temp=0;推理 Temp=0.6
环境
Ubuntu 22.04 / Python 3.12
置信区间
总体 AAII 的 95% CI < ±1%

独立评测

Key Feature 1

所有评测由 Artificial Analysis 独立进行,不依赖实验室自报结果。确保评测的客观性和可比性。

Agentic 导向

Key Feature 2

41.7% 权重分配给 Agent 相关任务(GDPval + τ²-Bench + Terminal-Bench),强调"做事"而非"答题"。

前沿难度

Key Feature 3

多个 benchmark 设计为 "Google-proof",当前最强模型在 CritPt 仅达个位数准确率。

04 计算方法

4 大类各 25%

Category Weights
Agents
25%
Coding
25%
General
25%
Science
25%

特殊计分口径

Special Scoring
GDPval-AA
Pairwise → ELO,归一化:clamp((ELO-500)/2000)
AA-Omniscience
50% Accuracy + 50% (1−Hallucination Rate)
其他评测
大多数以 pass@1 为核心
Agentic 倾向:GDPval-AA + τ²-Bench + Terminal-Bench 三项合计 41.7%,比传统"知识问答/竞赛题"导向更偏向"做事/工具/工作流"。

05 Benchmark 入选依据

核心设计理念

Core Philosophy

v4.0 版本的最大变革:从「Chatbot」到「Agent」的范式转移

理念转变
AI 不应仅是会聊天的 Chatbot,而必须是能使用工具、操作终端、处理复杂文件的数字员工
权重均衡
4 大类各 25%,防止模型在某一领域(如刷 MMLU 题库)过度优化
动态性
Agent 类 benchmark 要求模型产生副作用(Side Effects),如修改文件、查询数据库

准入标准

Selection Criteria

入选 benchmark 必须满足的「反饱和」与「实用主义」标准:

极高难度
SOTA 模型得分显著低于人类专家,未进入 90% 饱和区
抗污染设计
私有测试集、LLM 动态生成、或未发表难题
现实相关性
代表真实经济价值,非纯粹逻辑谜题
工程化兼容
支持 Docker 容器化,提供清晰的 Python 评估脚本

Agents 类

25%

GDPval-AA 对应美国 GDP 贡献最大的 44 种白领职业;τ²-Bench 测试复杂业务处理能力,关注世界状态的正确改变。

Coding 类

25%

摒弃传统代码片段生成测试(如 HumanEval),转向 DevOps Agent 试金石:系统管理、Git 操作、Docker 部署。

General 类

25%

AA-Omniscience 严厉惩罚错误但不惩罚拒答,迫使模型在「自信胡说」和「诚实拒答」间权衡。

Science 类

25%

HLE 替代已饱和的 MMLU,经过对抗性筛选;CritPt 来自未发表物理难题,每题平均审查 40+ 小时。

06 10 个 Benchmarks

AGENTS · 25%

1. GDPval-AA

Real World Knowledge Work · OpenAI
16.7%

测试 AI 在 44 个职业9 个行业的真实工作任务。由 OpenAI 与平均 14 年经验的行业专家合作开发。模型在 agentic loop 中运行,具备 Shell 访问和网页浏览能力。

题量
220 tasks (gold public subset)
重复次数
1
计分
Pairwise → ELO (Gemini 3 Pro 评判)
归一化
clamp((ELO-500)/2000)
Daily Task List PDF
行业:零售贸易 | 职业:零售销售主管
要求:为电子产品商店创建每日任务清单 PDF,包含开店检查、库存管理、客户服务等流程。
1 GPT-5.2 (xhigh) ELO 1462
2 Claude Opus 4.5 ELO 1416
3 GPT-5.2 (medium) ELO 1409

2. τ²-Bench Telecom

Dual Control Agent-User Simulation · Sierra
8.3%

双控制环境:AI 代理和用户都能修改共享世界状态。专注于电信技术支持场景,使用 Dec-POMDP 建模。测试问题解决和有效沟通能力。

题量
114
重复次数
3
计分
World state eval, pass@1
特点
组合式任务生成器 + 用户模拟器
移动数据不工作
初始状态:移动数据关闭,数据限额超出 (15.1 GB)
所需操作:用户打开移动数据 + 代理充值 2.0 GB
成功标准:网速测试 ≥200 Mbps + 精确充值量
1 GLM-4.7-Flash (R) 98.8%
2 Kimi K2.5 (R) 95.9%
3 GLM-4.7 (R) 95.9%
CODING · 25%

3. Terminal-Bench Hard

Terminal-based Task Execution · Stanford
16.7%

评估 AI 代理在真实终端环境中的能力:编译代码、训练模型、配置服务器、玩游戏、调试系统。使用 Docker 环境中的验证脚本进行程序化评估。

题量
44 (hard subset)
重复次数
3
计分
Test suite pass/fail, pass@1
特点
任务不太可能被模式匹配
Install Windows XP
使用 QEMU 下载、安装和运行 Windows XP SP3
成功标准:QEMU 运行 + VHD 有效 NTFS 引导扇区 + VNC 可访问 + 截图匹配登录屏幕 (≥85%)
1 GPT-5.2 (xhigh) 47.0%
2 Claude Opus 4.5 (R) 47.0%
3 GPT-5.1 (high) 45.5%

4. SciCode

Scientific Computing Python · 16 Disciplines
8.3%

科学家策划的编码基准,来自 16 个科学学科的真实实验室研究问题。每个问题需要:知识回忆、推理和代码合成。

题量
80 主问题 → 338 子问题
重复次数
3
计分
Code execution, pass@1
学科
数学、物理、化学、生物、材料科学等
Ewald Summation
使用 Ewald 求和计算周期性系统能量
包含 11 个子问题,需要理解晶体学和数值方法
1 Gemini 3 Pro (high) 56.1%
2 GPT-5.2 Codex 54.6%
3 GPT-5.2 (xhigh) 52.1%
GENERAL · 25%

5. AA-LCR

Long Context Reasoning
6.25%

专注于长文本理解,文档长度 10k-100k tokens。强调"真正的推理"而非简单数据提取。

题量
100
重复
3
计分
LLM Checker (Qwen3 235B)
1 GPT-5.2 Codex 75.7%
2 GPT-5 (high) 75.6%

6. AA-Omniscience

Knowledge & Hallucination
12.5%

评估跨领域知识可靠性。覆盖 6 大领域、42 个主题。只有 3 个模型得分 >0。

题量
6,000
计分
50% Acc + 50% (1−Hallu)
1 Gemini 3 Pro Idx 13
2 Claude Opus 4.5 Idx 10

7. IFBench

Instruction Following
6.25%

评估模型对未见过的输出约束的泛化能力。引入 58 个新约束。

题量
294
计分
Rule-driven, pass@1
1 Nova 2.0 Pro 79.6%
2 Gemini 3 Flash 78.0%
SCIENTIFIC REASONING · 25%

8. HLE (text-only)

Humanity's Last Exam · CAIS
12.5%

由 Center for AI Safety 主导,1,000+ 贡献者参与。设计为 "Google-proof"。

题量
2,158 text-only
计分
LLM Checker (GPT-4o)
1 Gemini 3 Pro 37.2%
2 GPT-5.2 (xhigh) 35.4%

9. GPQA Diamond

Graduate-level QA
6.25%

GPQA 最难子集。"Google-proof" 设计。博士专家准确率 65%

题量
198 (x5 repeats)
计分
Regex, pass@1
1 Gemini 3 Pro 90.8%
2 GPT-5.2 (xhigh) 90.3%

10. CritPt

Frontier Physics · 50+ Researchers
6.25%

测试未发表的前沿物理问题。每个问题平均审查 40+ 小时。

题量
70 (x5 repeats)
计分
Official grading server
Difficulty
当前 SOTA 模型得分仅 11.6%
1 GPT-5.2 (xhigh) 11.6%
2 Gemini 3 Pro 9.1%
Token 消耗:Intelligence Index 评测套件总计约 2800 万输入 tokens270 万输出 tokens(非推理模型)。

07 榜单更新机制

更新驱动力

Update Drivers

AA 榜单更新极其激进,核心逻辑是「动态难度调整」:

对抗饱和
当主流模型得分 >90% 时,benchmark 失去区分度(Ceiling Effect),必须替换
防止过拟合
开源 benchmark 题目会被混入预训练语料,引入私有测试集或极新高难测试集
范式转移
2023 年主旋律是 RAG 和对话,2025-2026 年是 Agent 和工具使用

版本演进案例

v3.0 → v4.0 Changes

v4.0 更新中的关键变动:

移除 MMLU
顶级模型得分 >90%,饱和严重,被 HLE 替代
移除 GSM8K
小学数学题已被解决,失去区分度
新增 GDPval-AA
私有化评测框架,对应真实白领工作
新增 CritPt
未发表物理难题,抗污染设计
"AI 的竞争焦点已正式从「谁知道得更多」转向了「谁能做得更好」。" — AA 设计理念

08 模型提交与准入

模型提交流程

Submission Process

AA 运作模式接近「受邀制」与「主动监测」结合的实验室模式:

主动监测
追踪热门模型,只要提供 OpenAI 兼容 APIOpen Weights 即可能被纳入
官方提交
通过 Contact Form 或 hello@artificialanalysis.ai 申请
Pre-launch
顶级实验室可在发布前提供 API 访问,同步推出评测报告

Benchmark 准入标准

Benchmark Acceptance

如何让提出的 Benchmark 被接受:

极高难度
SOTA 模型得分显著低于人类专家
抗污染设计
私有测试集、LLM 动态生成、未发表难题
现实相关性
代表真实经济价值
工程化兼容
支持 Docker 容器化,提供 Python 评估脚本

09 评测基础设施

Stirrup 开源框架

Stirrup Framework

AA 开发的轻量级 Agent 评测框架,设计哲学是「Get out of the way(不挡路)」:

定位
让模型自主决定如何规划任务,不强制套用 ReAct 等特定 Prompt 模板
沙箱环境
支持 Docker 容器或 E2B Sandbox 安全执行代码
MCP 支持
内置 Model Context Protocol 客户端,标准化调用浏览器、文件系统等工具
多模态
自动处理图像、视频、音频格式转换

评分系统

Judge Models

LLM-as-a-Judge 机制用于非选择题评分:

裁判模型
Gemini 1.5 Pro 或 GPT-4o 进行评分
等式检查器
Qwen3 235B 验证语义一致性(非字符串匹配)
Terminus-2
Terminal-Bench 专用评测 Harness,提供受限 Shell 环境

Token 归一化

Token Normalization

为公平对比不同 Tokenizer 的模型速度:

标准
统一换算为 OpenAI Token (tiktoken o200k_base)
示例
模型生成 1000 token,若 OpenAI 标准下仅相当于 800 token,速度会被打折

首字延迟监控

TTFT Monitoring

模拟真实用户网络环境:

探针位置
Google Cloud us-central1 区域
采样频率
每日多次采样,排除网络波动影响

10 扩展维度

开放性指数 (0-100)

Openness Index

评估模型「开源程度」的量化指标:

Availability
模型权重是否可下载?商业许可是 MIT/Apache 2.0 还是受限?
Transparency
是否公开预训练数据、训练代码和技术报告?
意义
揭示「Open Weights」(如 Llama) 与真正「Open Source」(如 OLMo) 的差异

遗漏/幻觉指数 (-100 ~ +100)

Omissions Index

基于 AA-Omniscience 数据集构建:

逻辑
奖励正确,惩罚错误,不惩罚拒答
发现
Claude 系列在此指数上通常得分最高,更倾向于「知之为知之,不知为不知」
应用
对金融、法律等对错误零容忍的行业至关重要
只有 3 个模型在 Omniscience Index 上得分 >0,说明大多数模型仍倾向于「自信胡说」而非「诚实拒答」。

11 方法论细节

答案提取方法

Answer Extraction

多阶段正则表达式方法,支持多种格式回退:

Boxed
\boxed{answer} LaTeX 格式
自然语言
"The answer is X" 模式
独立字母
选择题 A/B/C/D 提取
MC Prompt
"Answer the following... The last line should be: 'Answer: A/B/C/D'"

评判模型分配

LLM Checkers

不同 benchmark 使用不同的 LLM 作为评判器:

HLE
GPT-4o
AA-LCR
Qwen3 235B
AIME
Llama 3.3 70B
GDPval
Gemini 3 Pro (Pairwise)
Omniscience
Gemini 2.5 Flash

输出 Token 限制

Max Output Tokens
非推理模型
16,384 tokens
推理模型
模型特定最大值

独立评测(不计入 Index)

Standalone Evaluations
MMLU-Pro
12,032 题,10 选项选择题
AIME 2025
30 道数学题,每题 10 次重复
LiveCodeBench
315 代码生成任务,3 次重复
Global-MMLU
~6,000 题,16 种语言

12 完整来源汇总