机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 77|回复: 0

大模型ai假装看图

[复制链接]

2万

主题

3万

帖子

21万

积分

超级版主

Rank: 8Rank: 8

积分
212002
发表于 5 天前 | 显示全部楼层 |阅读模式
斯坦福一篇新论文提出:

多模态 AI 可能会“假装自己看到了图”。
研究者把图片从 benchmark 里删掉,
只留问题。
结果 GPT-5.1、Gemini-3-Pro、Gemini-2.5-Pro、Claude Opus 4.5 这些模型,
依然会像真的看到了图片一样自信回答。
论文把这种现象叫做 “mirage effect(海市蜃楼效应)”。
重点不是它“答错了”。
而是它会先脑补出一个并不存在的图像,再围绕这个虚构输入继续推理。
这和普通幻觉不一样。
更夸张的是:
在 6 个通用和医学多模态基准上,
模型在没有图片的情况下,平均还能保留 70%–80% 的原始成绩;
一些医学 benchmark 对这种“无图也能答”的脆弱性最高到 99%。
研究者还训练了一个 3B 的纯文本模型,
从头到尾没看过图,
结果在一个胸片问答 benchmark 上,
超过了所有前沿多模态模型,还平均超过人类放射科医生 10% 以上。

这说明什么?
很多所谓“视觉理解 benchmark”,
测到的可能并不是真正的视觉能力,
而是模型对文本线索、数据集套路和题目偏差的利用能力。
AI 最危险的时候,可能不是它不会答,而是它没看见也答得像真看见了一样。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-4-16 01:48 , Processed in 0.127813 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表