Gemini 3 Pro 评测分析
能力短板诊断 · Benchmark 目标设定
1
Chart (面向Paper)
不足点 (Weakness)
视觉-数值映射与精细度误差错误
模型缺乏像素级测量能力,无法将连续视觉信号(曲线、阴影边界)精确转化为离散数值坐标,导致在 Code 重建时关键数据点发生漂移,进而使基于代码的差值计算逻辑运行在错误的数据上;甚至无法利用颜色信息分离重叠的几何路径,导致视觉特征丢失。
Case 1
gsynth 曲线末端画低
Case 4
蓝绿线识别为黑
高频细节(符号)的表征与统计不忠实图像
面对密集非结构化数据(散点、重复符号),模型无法执行对象级分割与计数(Subitizing failure),倾向于使用随机生成(如 rand 函数)进行视觉模仿而非真实数据提取,丧失数据忠实性。
Case 2
散点位置随机生成
Case 3
无法用代码复现固定数量的 X
长程空间(多图、大图)关联与视觉属性错误
无法有效处理多跳空间关系,导致边缘坐标轴标签与中心子图内容的语义对齐错位;且色相/几何特征解耦能力弱,在多目标重叠时无法利用颜色信息分离独立数据流,导致重建失败。
Case 2
行列标签读取错误
Case 4
无法区分不同颜色的折线
目标设定 (Benchmark)
完美重建原始 Chart
可以比较完美的重建出原始 Chart。需要理解精确的数值细节、图例、图示、线条等细节,多图、大图场景需要能保持前后一致,整体符合要求。
自由编辑原始 Chart
可以对原始 Chart 进行自由编辑。需要精确理解图表的不同组成部分,既需要找对地方,又需要理解对需求。
基于 Chart code 理解信息与分析
可以基于 Chart code 理解 chart 所有信息,进行数据分析。需要能从 Code 得到和 query 相关的图表信息。
2
立体几何
不足点 (Weakness)
3D空间关系无法准确感知
比如平面与几何体的相交关系,既非常难感知,也非常难用 code 表达清楚。另外模型难以从二维投影(2D图像)准确逆向推导三维结构,导致在处理遮挡关系和深度信息时出现逻辑坍塌。它无法维持物体全局的结构一致性,常在重建时混淆“可见”与“不可见”部分,或错误理解物体的层级堆叠。
Case 1
看图回答错误
Case 2
无法重建正确关系
Case 3
立方体连线错误
Case 4
积木结构重建错误
视觉语义对齐与精细几何特征丢失
模型在将视觉信号转化为符号化代码(如 TikZ/LaTeX)时存在严重的“有损压缩”。它往往能识别宏观类别(如“圆锥”、“立方体”),但无法精确捕捉微观的几何属性(如特定的倾角、特殊的截面形状或线条的具体连接方式),导致代码生成的图像与原图仅仅是“神似”而“形不似”。
Case 1
圆锥截面形状错误
Case 3/4
能用自然语言指出区别(“少了线”、“高度不对”),但生成代码无法修正
目标设定 (Benchmark)
完美重建原始几何图像
可以比较完美的重建出原始的几何图像。尤其是正确处理好三维的空间关系。
在几何图像上准确画辅助线
可以在几何图像上准确画辅助线。尤其是在空间中正确得到正确的辅助线。
基于几何 code 理解图像并完成解题
可以基于几何 code 理解图像并完成解题。解题比 VQA 需要更多的 Reason,在 Reason 时可以不出现对图像的感知幻觉,并且可以精准理解细节。
3
图的拓扑结构
不足点 (Weakness)
细粒度连接关系的感知困难
模型缺乏高精度的几何解析能力,无法准确提取节点间的有向连接(Directed Edges)与权重关系。在处理视觉遮挡或高密度连线时,无法将像素级线条转化为正确的邻接表信息,导致 Code 重建时出现“丢边”、“错连”或“合并双向边失败”的现象。
Case 2
节点2遗漏入边,无法理解双向箭头
Case 3
F->X 误画为 F->D
长推理中忽略感知信息的目标导向幻觉
在路径推理或序列匹配任务中,模型表现出明显的“目的论偏差(Teleological Bias)”。当视觉特征(如箭头方向)与题目预期的数字序列产生冲突时,模型倾向于为了凑出答案而牺牲基础的图论公理(如逆行有向边),导致推理过程丧失了规则的刚性约束。
Case 3
为匹配权重 3,强行逆行 J->C 的边
视觉感知与符号推理的认知冲突
模型在视觉模态与代码模态下的判别标准不一致。视觉模式下能识别显而易见的结构异常(孤立点),但在代码模式下容易陷入“过度理论化”的陷阱,忽略显著的视觉特征而过度纠结于次要的数学定义。
Case 1
视觉选对 B,代码却因死抠度数定义误选 D
目标设定 (Benchmark)
完美重建图类型拓扑结构
可以比较完美的重建出原始的图类型拓扑结构。尤其需要正确表达有向图的边和方向。
自由编辑图类型拓扑结构
可以自由编辑图类型拓扑结构。比如添加减少节点。
基于图的拓扑结构 code 完成 VQA 任务
可以基于图的拓扑结构 code 完成 VQA 任务。在 VQA 任务中,可以利用 code 正确得到所有节点方向细节完成任务。
4
SVG Image
不足点 (Weakness)
几何与比例感知不准
感知角度无法正确识别重建圆角尺度、圆与边框相切关系、颜色空间比例及线条粗细,表达角度自然语言难以描述复杂形状。
Case 1/2/3
感知精度与自然语言描述问题
语义整合缺失
将 SVG 视为代码/文本处理而非视觉场景,无法从低级路径、颜色原语有效桥接到符号理解,仅能局部模式匹配,缺乏全局语义整合。
Case 4-6
语义整合缺失
空间与功能推理薄弱
仅能推断左、右等简单空间关系,无法从 code 准确推理物体的功能组件及整体结构关系。
Case 4-6
功能与结构推理问题
目标设定 (Benchmark)
完美重建 SVG 类型的 icon 与图像
可以比较完美的重建出 SVG 的类型的 icon 与图像。尤其是弧度,颜色区块比例等区域优化。
根据指令正确编辑 SVG 类型图像
可以根据指令正确编辑 SVG 类型图像。需要对整体的感知,找对正确的部分,并且可以理解 query 需求。
理解 SVG 图像内容
可以理解 SVG 图像内容,可以正确把 SVG icon 作为 paper Chart 的一部分。直接基于 code,能建立对表达 icon,图像的整体认知。
5
化学表达式
不足点 (Weakness)
空间拓扑关系与自然语言之间的差异巨大
模型难以将严格的二维分子图结构(Graph)精确降维映射为一维自然语言,且缺乏原子级的索引定位能力(如 C1/C5 位点锚定),导致在处理稠环或长链时,相对方位描述与实际几何坐标解耦,引发原子连接逻辑的结构性错乱。
Case 1 & 2
结构连接位置错误
化学表达式的代码能力弱
中间推理过程(CoT)与最终代码执行严重割裂,频繁出现“虚假修正”现象(声称调整角度但渲染无变化);模型倾向于依据化学规则进行逻辑“脑补”而非基于视觉事实的提取,导致从语义分析到代码实现的真实性坍塌。
Case 1
逻辑自洽但事实错误的结构幻觉
细粒度化学特征的感知精度不足
缺乏对微观化学语义的解析精度,导致立体化学信息(实/虚楔形键导致的手性错误)与几何异构特征(顺/反式双键混淆)丢失;同时在键级判断上缺乏敏锐度(误判单双键或忽略共轭体系),无法忠实还原分子的物理化学属性。
Case 2
手性中心错误
Case 3
键级与异构误判
目标设定 (Benchmark)
重建出复杂化学表达式
可以重建出复杂化学表达式。通过 code 准确表达化学式的拓扑关系。
根据需求编辑化学表达式
可以根据需求编辑化学表达式。能理解细粒度的化学式编辑需求,比如第三点提到的这些细节特征。
理解化学表达式完成相关 science 任务
可以理解化学表达式完成相关 science 任务。基于 Code 完成复杂 VQA 任务。
6
电路图
不足点 (Weakness)
无法识别非常见电路元件
非常见电路元件和复杂连接关系,无法用自然语言正确引导使用 tikz 正确编码。
Case 3
非常见电路元件基本都画错了
无法识别距离比例关系
这点和其它 Diagram 一样,但是在电路中线的长短对表达的内容影响不大。
Case 1/2/4/5
常见电路元件复原的都很好,只是比例长短不对
目标设定 (Benchmark)
重建出复杂电路图的元件和连接关键
可以重建出复杂电路图的元件和连接关键。强化对复杂电路元件到 code 的映射关系。
对电路图元件、连接关系进行精准编辑
可以对电路图元件、连接关系进行精准编辑。需要能理解元器件的连接关系,和搞清楚所有复杂元器件和 code 的对应关系。
基于电路图 code 完成解题任务
可以基于电路图 code 完成解题任务。在 Reason 中正确理解电路图的内容。