📊 SVG 翻译局限性总结表
| 局限类别 | 根本原因 | 失败案例 | 具体示例 |
|---|---|---|---|
| 1. 局部 vs 全局理解 | 模型聚焦于单个路径/笔画/颜色,缺乏整体符号理解能力 | Case 0 Case 5 Case 8 | Case 8: 只感知到"V形翻盖"就假设是信封 / 感知到孔洞就假设是羽毛笔 |
| 2. 预训练知识偏差 | 模型将自然图像的视觉假设应用于刚性的 SVG 几何 | Case 6 | 围巾:期望"流动曲线"但 SVG 使用刚性线条 → 分类错误 |
| 3. 关键特征遗漏 | 无法识别关键的诊断性组件 | Case 78 Case 91 | 大象(Case 91): 无法检测象鼻和大耳朵; 昆虫(Case 78): 遗漏触角、六条腿和分节外骨骼 |
| 4. 复杂路径混淆 | 当 SVG 路径变得复杂时,几何测量失败 | Case 97 | 复杂路径 → 模型诉诸形状假设而非精确分析 |
| 5. 关系理解能力 | 无法推断空间关系和组合含义 | 多个案例 | 只看到孤立形状(圆、孔、V形),不理解它们如何组合 |
🔍 结论
图像到 SVG 的转换保留了几何数据,但丢失了感知结构
模型将 SVG 作为 代码/文本 处理,而非 视觉场景,导致:
- 难以从低级路径/颜色原语桥接到符号理解
- 局部模式匹配,缺乏全局语义整合
- 无法推理空间和功能关系(只能推断非常简单的关系,如左、右、内部)