AAII v4.0.2 | JAN 2026

Artificial
Analysis

独立第三方评测机构 Artificial Analysis 发布的综合智能指数 — 聚合 10 个高难度评测，text-only、English-only，按 4 大类各 25% 加权计算。被誉为 AI 领域的「消费者报告」。

Benchmarks

Confidence 95%

< ±1%

Agent Weight

41.7%

01 AI 评测的「信任危机」

传统基准的困境

The Problem

随着 AI 技术指数级迭代，传统学术基准测试正面临前所未有的挑战：

饱和效应: MMLU 等测试顶级模型得分普遍 >90%，失去区分度
数据污染: 测试集题目被混入预训练语料，高分 ≠ 真实泛化智能
自报分数: 厂商自报结果存在「水分」，缺乏独立验证

"高分不再代表真实的泛化智能，而仅仅是「背题」能力的体现。" — 行业观察

独立基准的崛起

The Solution

Artificial Analysis 作为独立第三方评测机构异军突起：

定位: AI 领域的「消费者报告」(Consumer Reports)
核心价值: 无偏见 (Unbiased)、难以操纵 (Gaming-resistant)
行业地位: 2024-2026 年间确立事实标准地位

AA 官网方法论

02 组织与公信力

创始团队

Founding Team

独立商业化研究实验室，非学术机构或科技巨头主导：

Micah Hill-Smith: CEO · 前麦肯锡战略咨询，构建法律 AI 助手时发现评测数据匮乏
George Cameron: CPO · 负责技术架构与评测体系设计
创立初衷: 回答「哪个模型最适合我的用例？」「真实的成本与速度权衡是什么？」

神秘顾客机制

Mystery Shopper Policy

防止厂商针对评测账号进行「特供版」优化：

匿名账号: 不使用机构域名，注册普通匿名账号
真实付费: 实际付费调用 API，模拟真实企业用户体验
独立基础设施: Google Cloud us-central1 区域 VM，非厂商演示环境

"评测结果反映的是「客户在真实生产环境中获得的性能」，而非实验室条件下的理论峰值。" — AA 方法论

社区认可

Community Recognition

在 GitHub、Reddit (r/LocalLLaMA) 等社区被认为是「最难以被操纵」的基准。特别赞赏其对长文本推理、幻觉率、价格/性能比的综合分析。

行业采纳

Industry Adoption

Anthropic Claude Opus 4.5 系统卡引用 AA 数据；OpenAI o1 系统卡、Google Gemini 3 Flash 发布博客多次提及 AA 基准。

企业决策

Enterprise Use

Fortune 500 强企业 CTO 将 AA 象限图作为模型选型的重要决策工具，尤其在权衡私有化部署成本与模型智能水平时。

03 AAII 是什么

官方定义

Official Definition

官方入口: AAII 评测页
方法论: Intelligence Benchmarking Methodology
定位: text-only、English-only 综合指数
版本: v4.0.2 (January 2026)

官方原句

"Intelligence Index is calculated as a weighted average across four categories, each contributing 25% to the overall score." — AA Methodology

评测设置

Evaluation Settings

Prompt: zero-shot instruction prompted
温度: 非推理 Temp=0；推理 Temp=0.6
环境: Ubuntu 22.04 / Python 3.12
置信区间: 总体 AAII 的 95% CI < ±1%

独立评测

Key Feature 1

所有评测由 Artificial Analysis 独立进行，不依赖实验室自报结果。确保评测的客观性和可比性。

Agentic 导向

Key Feature 2

41.7% 权重分配给 Agent 相关任务（GDPval + τ²-Bench + Terminal-Bench），强调"做事"而非"答题"。

前沿难度

Key Feature 3

多个 benchmark 设计为 "Google-proof"，当前最强模型在 CritPt 仅达个位数准确率。

04 计算方法

4 大类各 25%

Category Weights

Agents

25%

Coding

25%

General

25%

Science

25%

特殊计分口径

Special Scoring

GDPval-AA: Pairwise → ELO，归一化：clamp((ELO-500)/2000)
AA-Omniscience: 50% Accuracy + 50% (1−Hallucination Rate)
其他评测: 大多数以 pass@1 为核心

Agentic 倾向：GDPval-AA + τ²-Bench + Terminal-Bench 三项合计 41.7%，比传统"知识问答/竞赛题"导向更偏向"做事/工具/工作流"。

05 Benchmark 入选依据

核心设计理念

Core Philosophy

v4.0 版本的最大变革：从「Chatbot」到「Agent」的范式转移

理念转变: AI 不应仅是会聊天的 Chatbot，而必须是能使用工具、操作终端、处理复杂文件的数字员工
权重均衡: 4 大类各 25%，防止模型在某一领域（如刷 MMLU 题库）过度优化
动态性: Agent 类 benchmark 要求模型产生副作用（Side Effects），如修改文件、查询数据库

准入标准

Selection Criteria

入选 benchmark 必须满足的「反饱和」与「实用主义」标准：

极高难度: SOTA 模型得分显著低于人类专家，未进入 90% 饱和区
抗污染设计: 私有测试集、LLM 动态生成、或未发表难题
现实相关性: 代表真实经济价值，非纯粹逻辑谜题
工程化兼容: 支持 Docker 容器化，提供清晰的 Python 评估脚本

Agents 类

25%

GDPval-AA 对应美国 GDP 贡献最大的 44 种白领职业；τ²-Bench 测试复杂业务处理能力，关注世界状态的正确改变。

Coding 类

25%

摒弃传统代码片段生成测试（如 HumanEval），转向 DevOps Agent 试金石：系统管理、Git 操作、Docker 部署。

General 类

25%

AA-Omniscience 严厉惩罚错误但不惩罚拒答，迫使模型在「自信胡说」和「诚实拒答」间权衡。

Science 类

25%

HLE 替代已饱和的 MMLU，经过对抗性筛选；CritPt 来自未发表物理难题，每题平均审查 40+ 小时。

06 10 个 Benchmarks

AGENTS · 25%

1. GDPval-AA

Real World Knowledge Work · OpenAI

16.7%

测试 AI 在 44 个职业和 9 个行业的真实工作任务。由 OpenAI 与平均 14 年经验的行业专家合作开发。模型在 agentic loop 中运行，具备 Shell 访问和网页浏览能力。

题量: 220 tasks (gold public subset)
重复次数: 1
计分: Pairwise → ELO (Gemini 3 Pro 评判)
归一化: clamp((ELO-500)/2000)

Daily Task List PDF

行业：零售贸易 | 职业：零售销售主管
要求：为电子产品商店创建每日任务清单 PDF，包含开店检查、库存管理、客户服务等流程。

1	GPT-5.2 (xhigh)	ELO 1462
2	Claude Opus 4.5	ELO 1416
3	GPT-5.2 (medium)	ELO 1409

AA Leaderboard OpenAI 论文

2. τ²-Bench Telecom

Dual Control Agent-User Simulation · Sierra

8.3%

双控制环境：AI 代理和用户都能修改共享世界状态。专注于电信技术支持场景，使用 Dec-POMDP 建模。测试问题解决和有效沟通能力。

题量: 114
重复次数: 3
计分: World state eval, pass@1
特点: 组合式任务生成器 + 用户模拟器

移动数据不工作

初始状态：移动数据关闭，数据限额超出 (15.1 GB)
所需操作：用户打开移动数据 + 代理充值 2.0 GB
成功标准：网速测试 ≥200 Mbps + 精确充值量

1	GLM-4.7-Flash (R)	98.8%
2	Kimi K2.5 (R)	95.9%
3	GLM-4.7 (R)	95.9%

Leaderboard GitHub 论文

CODING · 25%

3. Terminal-Bench Hard

Terminal-based Task Execution · Stanford

16.7%

评估 AI 代理在真实终端环境中的能力：编译代码、训练模型、配置服务器、玩游戏、调试系统。使用 Docker 环境中的验证脚本进行程序化评估。

题量: 44 (hard subset)
重复次数: 3
计分: Test suite pass/fail, pass@1
特点: 任务不太可能被模式匹配

Install Windows XP

使用 QEMU 下载、安装和运行 Windows XP SP3
成功标准：QEMU 运行 + VHD 有效 NTFS 引导扇区 + VNC 可访问 + 截图匹配登录屏幕 (≥85%)

1	GPT-5.2 (xhigh)	47.0%
2	Claude Opus 4.5 (R)	47.0%
3	GPT-5.1 (high)	45.5%

Leaderboard Website 论文

4. SciCode

Scientific Computing Python · 16 Disciplines

8.3%

科学家策划的编码基准，来自 16 个科学学科的真实实验室研究问题。每个问题需要：知识回忆、推理和代码合成。

题量: 80 主问题 → 338 子问题
重复次数: 3
计分: Code execution, pass@1
学科: 数学、物理、化学、生物、材料科学等

Ewald Summation

使用 Ewald 求和计算周期性系统能量
包含 11 个子问题，需要理解晶体学和数值方法

1	Gemini 3 Pro (high)	56.1%
2	GPT-5.2 Codex	54.6%
3	GPT-5.2 (xhigh)	52.1%

Leaderboard Website 论文

GENERAL · 25%

5. AA-LCR

Long Context Reasoning

6.25%

专注于长文本理解，文档长度 10k-100k tokens。强调"真正的推理"而非简单数据提取。

题量: 100
重复: 3
计分: LLM Checker (Qwen3 235B)

1	GPT-5.2 Codex	75.7%
2	GPT-5 (high)	75.6%

AA HF

6. AA-Omniscience

Knowledge & Hallucination

12.5%

评估跨领域知识可靠性。覆盖 6 大领域、42 个主题。只有 3 个模型得分 >0。

题量: 6,000
计分: 50% Acc + 50% (1−Hallu)

1	Gemini 3 Pro	Idx 13
2	Claude Opus 4.5	Idx 10

AA 论文

7. IFBench

Instruction Following

6.25%

评估模型对未见过的输出约束的泛化能力。引入 58 个新约束。

题量: 294
计分: Rule-driven, pass@1

1	Nova 2.0 Pro	79.6%
2	Gemini 3 Flash	78.0%

AA 论文

SCIENTIFIC REASONING · 25%

8. HLE (text-only)

Humanity's Last Exam · CAIS

12.5%

由 Center for AI Safety 主导，1,000+ 贡献者参与。设计为 "Google-proof"。

题量: 2,158 text-only
计分: LLM Checker (GPT-4o)

1	Gemini 3 Pro	37.2%
2	GPT-5.2 (xhigh)	35.4%

AA Project

9. GPQA Diamond

Graduate-level QA

6.25%

GPQA 最难子集。"Google-proof" 设计。博士专家准确率 65%。

题量: 198 (x5 repeats)
计分: Regex, pass@1

1	Gemini 3 Pro	90.8%
2	GPT-5.2 (xhigh)	90.3%

AA 论文

10. CritPt

Frontier Physics · 50+ Researchers

6.25%

测试未发表的前沿物理问题。每个问题平均审查 40+ 小时。

题量: 70 (x5 repeats)
计分: Official grading server

Difficulty

当前 SOTA 模型得分仅 11.6%

1	GPT-5.2 (xhigh)	11.6%
2	Gemini 3 Pro	9.1%

AA Website

Token 消耗：Intelligence Index 评测套件总计约 2800 万输入 tokens 和 270 万输出 tokens（非推理模型）。

07 榜单更新机制

更新驱动力

Update Drivers

AA 榜单更新极其激进，核心逻辑是「动态难度调整」：

对抗饱和: 当主流模型得分 >90% 时，benchmark 失去区分度（Ceiling Effect），必须替换
防止过拟合: 开源 benchmark 题目会被混入预训练语料，引入私有测试集或极新高难测试集
范式转移: 2023 年主旋律是 RAG 和对话，2025-2026 年是 Agent 和工具使用

版本演进案例

v3.0 → v4.0 Changes

v4.0 更新中的关键变动：

移除 MMLU: 顶级模型得分 >90%，饱和严重，被 HLE 替代
移除 GSM8K: 小学数学题已被解决，失去区分度
新增 GDPval-AA: 私有化评测框架，对应真实白领工作
新增 CritPt: 未发表物理难题，抗污染设计

"AI 的竞争焦点已正式从「谁知道得更多」转向了「谁能做得更好」。" — AA 设计理念

08 模型提交与准入

模型提交流程

Submission Process

AA 运作模式接近「受邀制」与「主动监测」结合的实验室模式：

主动监测: 追踪热门模型，只要提供 OpenAI 兼容 API 或 Open Weights 即可能被纳入
官方提交: 通过 Contact Form 或 hello@artificialanalysis.ai 申请
Pre-launch: 顶级实验室可在发布前提供 API 访问，同步推出评测报告

Benchmark 准入标准

Benchmark Acceptance

如何让提出的 Benchmark 被接受：

极高难度: SOTA 模型得分显著低于人类专家
抗污染设计: 私有测试集、LLM 动态生成、未发表难题
现实相关性: 代表真实经济价值
工程化兼容: 支持 Docker 容器化，提供 Python 评估脚本

09 评测基础设施

Stirrup 开源框架

Stirrup Framework

AA 开发的轻量级 Agent 评测框架，设计哲学是「Get out of the way（不挡路）」：

定位: 让模型自主决定如何规划任务，不强制套用 ReAct 等特定 Prompt 模板
沙箱环境: 支持 Docker 容器或 E2B Sandbox 安全执行代码
MCP 支持: 内置 Model Context Protocol 客户端，标准化调用浏览器、文件系统等工具
多模态: 自动处理图像、视频、音频格式转换

GitHub pip install stirrup

评分系统

Judge Models

LLM-as-a-Judge 机制用于非选择题评分：

裁判模型: Gemini 1.5 Pro 或 GPT-4o 进行评分
等式检查器: Qwen3 235B 验证语义一致性（非字符串匹配）
Terminus-2: Terminal-Bench 专用评测 Harness，提供受限 Shell 环境

Token 归一化

Token Normalization

为公平对比不同 Tokenizer 的模型速度：

标准: 统一换算为 OpenAI Token (tiktoken o200k_base)
示例: 模型生成 1000 token，若 OpenAI 标准下仅相当于 800 token，速度会被打折

首字延迟监控

TTFT Monitoring

模拟真实用户网络环境：

探针位置: Google Cloud us-central1 区域
采样频率: 每日多次采样，排除网络波动影响

10 扩展维度

开放性指数 (0-100)

Openness Index

评估模型「开源程度」的量化指标：

Availability: 模型权重是否可下载？商业许可是 MIT/Apache 2.0 还是受限？
Transparency: 是否公开预训练数据、训练代码和技术报告？
意义: 揭示「Open Weights」(如 Llama) 与真正「Open Source」(如 OLMo) 的差异

遗漏/幻觉指数 (-100 ~ +100)

Omissions Index

基于 AA-Omniscience 数据集构建：

逻辑: 奖励正确，惩罚错误，不惩罚拒答
发现: Claude 系列在此指数上通常得分最高，更倾向于「知之为知之，不知为不知」
应用: 对金融、法律等对错误零容忍的行业至关重要

只有 3 个模型在 Omniscience Index 上得分 >0，说明大多数模型仍倾向于「自信胡说」而非「诚实拒答」。

11 方法论细节

答案提取方法

Answer Extraction

多阶段正则表达式方法，支持多种格式回退：

Boxed: \boxed{answer} LaTeX 格式
自然语言: "The answer is X" 模式
独立字母: 选择题 A/B/C/D 提取
MC Prompt: "Answer the following... The last line should be: 'Answer: A/B/C/D'"

评判模型分配

LLM Checkers

不同 benchmark 使用不同的 LLM 作为评判器：

HLE: GPT-4o
AA-LCR: Qwen3 235B
AIME: Llama 3.3 70B
GDPval: Gemini 3 Pro (Pairwise)
Omniscience: Gemini 2.5 Flash

输出 Token 限制

Max Output Tokens

非推理模型: 16,384 tokens
推理模型: 模型特定最大值

独立评测（不计入 Index）

Standalone Evaluations

MMLU-Pro: 12,032 题，10 选项选择题
AIME 2025: 30 道数学题，每题 10 次重复
LiveCodeBench: 315 代码生成任务，3 次重复
Global-MMLU: ~6,000 题，16 种语言

12 完整来源汇总

AA 官方

Official

原站/主页

Benchmarks

论文

Papers