SVG 图像理解局限性分析

📊 SVG 翻译局限性总结表

局限类别	根本原因	失败案例	具体示例
1. 局部 vs 全局理解	模型聚焦于单个路径/笔画/颜色，缺乏整体符号理解能力	Case 0 Case 5 Case 8	Case 8: 只感知到"V形翻盖"就假设是信封 / 感知到孔洞就假设是羽毛笔
2. 预训练知识偏差	模型将自然图像的视觉假设应用于刚性的 SVG 几何	Case 6	围巾：期望"流动曲线"但 SVG 使用刚性线条 → 分类错误
3. 关键特征遗漏	无法识别关键的诊断性组件	Case 78 Case 91	大象(Case 91): 无法检测象鼻和大耳朵; 昆虫(Case 78): 遗漏触角、六条腿和分节外骨骼
4. 复杂路径混淆	当 SVG 路径变得复杂时，几何测量失败	Case 97	复杂路径 → 模型诉诸形状假设而非精确分析
5. 关系理解能力	无法推断空间关系和组合含义	多个案例	只看到孤立形状（圆、孔、V形），不理解它们如何组合

模型将 SVG 作为 代码/文本 处理，而非 视觉场景，导致：