Limitations of SVG-Based Image Understanding in Gemini

SVG 图像理解的局限性分析

📊 SVG 翻译局限性总结表

局限类别 根本原因 失败案例 具体示例
1. 局部 vs 全局理解 模型聚焦于单个路径/笔画/颜色,缺乏整体符号理解能力 Case 0 Case 5 Case 8 Case 8: 只感知到"V形翻盖"就假设是信封 / 感知到孔洞就假设是羽毛笔
2. 预训练知识偏差 模型将自然图像的视觉假设应用于刚性的 SVG 几何 Case 6 围巾:期望"流动曲线"但 SVG 使用刚性线条 → 分类错误
3. 关键特征遗漏 无法识别关键的诊断性组件 Case 78 Case 91 大象(Case 91): 无法检测象鼻和大耳朵; 昆虫(Case 78): 遗漏触角、六条腿和分节外骨骼
4. 复杂路径混淆 当 SVG 路径变得复杂时,几何测量失败 Case 97 复杂路径 → 模型诉诸形状假设而非精确分析
5. 关系理解能力 无法推断空间关系和组合含义 多个案例 只看到孤立形状(圆、孔、V形),不理解它们如何组合

🔍 结论

图像到 SVG 的转换保留了几何数据,但丢失了感知结构

模型将 SVG 作为 代码/文本 处理,而非 视觉场景,导致:

  • 难以从低级路径/颜色原语桥接到符号理解
  • 局部模式匹配,缺乏全局语义整合
  • 无法推理空间和功能关系(只能推断非常简单的关系,如左、右、内部)