大模型ai假装看图

寂静回声 发表于 5 天前

斯坦福一篇新论文提出：

多模态 AI 可能会“假装自己看到了图”。
研究者把图片从 benchmark 里删掉，
只留问题。
结果 GPT-5.1、Gemini-3-Pro、Gemini-2.5-Pro、Claude Opus 4.5 这些模型，
依然会像真的看到了图片一样自信回答。
论文把这种现象叫做 “mirage effect（海市蜃楼效应）”。
重点不是它“答错了”。
而是它会先脑补出一个并不存在的图像，再围绕这个虚构输入继续推理。
这和普通幻觉不一样。
更夸张的是：
在 6 个通用和医学多模态基准上，
模型在没有图片的情况下，平均还能保留 70%–80% 的原始成绩；
一些医学 benchmark 对这种“无图也能答”的脆弱性最高到 99%。
研究者还训练了一个 3B 的纯文本模型，
从头到尾没看过图，
结果在一个胸片问答 benchmark 上，
超过了所有前沿多模态模型，还平均超过人类放射科医生 10% 以上。

这说明什么？
很多所谓“视觉理解 benchmark”，
测到的可能并不是真正的视觉能力，
而是模型对文本线索、数据集套路和题目偏差的利用能力。
AI 最危险的时候，可能不是它不会答，而是它没看见也答得像真看见了一样。
https://s3.bmp.ovh/2026/04/11/ENdyyzml.jpg
https://s3.bmp.ovh/2026/04/11/snAKFEK9.jpg

页: [1]

机械荟萃山庄's Archiver

大模型ai假装看图