大模型ai假装看图
斯坦福一篇新论文提出:多模态 AI 可能会“假装自己看到了图”。
研究者把图片从 benchmark 里删掉,
只留问题。
结果 GPT-5.1、Gemini-3-Pro、Gemini-2.5-Pro、Claude Opus 4.5 这些模型,
依然会像真的看到了图片一样自信回答。
论文把这种现象叫做 “mirage effect(海市蜃楼效应)”。
重点不是它“答错了”。
而是它会先脑补出一个并不存在的图像,再围绕这个虚构输入继续推理。
这和普通幻觉不一样。
更夸张的是:
在 6 个通用和医学多模态基准上,
模型在没有图片的情况下,平均还能保留 70%–80% 的原始成绩;
一些医学 benchmark 对这种“无图也能答”的脆弱性最高到 99%。
研究者还训练了一个 3B 的纯文本模型,
从头到尾没看过图,
结果在一个胸片问答 benchmark 上,
超过了所有前沿多模态模型,还平均超过人类放射科医生 10% 以上。
这说明什么?
很多所谓“视觉理解 benchmark”,
测到的可能并不是真正的视觉能力,
而是模型对文本线索、数据集套路和题目偏差的利用能力。
AI 最危险的时候,可能不是它不会答,而是它没看见也答得像真看见了一样。
https://s3.bmp.ovh/2026/04/11/ENdyyzml.jpg
https://s3.bmp.ovh/2026/04/11/snAKFEK9.jpg
页:
[1]