TikZ Code-Based vs Image-Based Reasoning

Gemini 中 TikZ 代码推理与图像推理的对比分析

🔬 核心假设

当 Gemini 从图像输入转换为 TikZ 代码输入时,底层推理机制可能并未根本改变。模型可能在内部将图像转换为类代码表示:

图像输入 内部类代码结构 推理
注意:这是推测性的 —— 我们无法看到 Gemini 的���部处理流程。
随着时间推移,推理正在从自然语言表达转向更加结构化和形式化定义的表示方式。

📋 案例研究

2 推理方向差异

图像推理从左到右进行,但 TikZ 代码从原语向上生成。仔细检查 TikZ 代码会发现,它已经编码了几何含义 —— 代码与门级结构配对。

4 代码冗余问题

代码仍然太长和冗余。例如,我们真的需要编码详细的颜色样式吗?答案是否定的 —— 重要的是数值映射,而非样式属性。

5 代码长度问题

再次出现生成代码不必要地过长的问题。

7 平行关系感知

此案例展示了对图中平行关系感知的失败。然而,TikZ 包含可以帮助推断平行性的显式构造。关键问题是:如何正确地将相关 TikZ 代码与图像中的平行关系配对?

10 结构化信息利用

类似问题:TikZ 代码已包含角度计算和简单几何公式等注释,隐式编码了距离或对齐信息。问题在于如何有效利用这些结构化信息。

📝 结论

TikZ 代码通过显式编码几何关系(坐标、角度、距离)并将原语与语义注释配对,相比原始图像提供了结构性优势。然而,两个关键挑战仍然存在:

1. 代码冗余

样式属性(颜色、线条样式)增加了噪声而无语义价值。只有数值映射对推理有意义。

2. 配对问题

模型必须正确识别哪些代码元素与特定几何关系相关(例如,哪些线是平行的,哪些角度对应哪些连接)。这需要超越顺序解析的结构化代码理解。

核心洞见 从自然语言(图像描述)到结构化代码(TikZ 原语)的转变使更形式化的几何推理成为可能,但有效性取决于过滤冗余信息和学习代码到关系的映射。