科学家证实大模型能像人类一样“理解”事物

来源：科技日报

2025-06-11 06:37　

分享到

分享到微信

科技日报北京6月10日电（记者陆成宽）记者10日从中国科学院自动化研究所获悉，来自该所等单位的科研人员首次证实，多模态大语言模型在训练过程中自己学会了“理解”事物，而且这种理解方式和人类非常类似。这一发现为探索人工智能如何“思考”开辟了新路，也为未来打造像人类一样“理解”世界的人工智能系统打下了基础。相关研究成果在线发表于《自然·机器智能》杂志。

人类智能的核心，就是能真正“理解”事物。当看到“狗”或“苹果”时，我们不仅能识别它们长什么样，如大小、颜色、形状等，还能明白它们有什么用、能带给我们什么感受、有什么文化意义。这种全方位的理解，是我们认知世界的基础。而随着像ChatGPT这样的大模型飞速发展，科学家们开始好奇：它们能否从海量的文字和图片中，学会像人类一样“理解”事物？

传统人工智能研究聚焦于物体识别准确率，却鲜少探讨模型是否真正“理解”物体含义。“当前人工智能可以区分猫狗图片，但这种‘识别’与人类‘理解’猫狗有什么本质区别，仍有待揭示。”论文通讯作者、中国科学院自动化研究所研究员何晖光说。

在这项研究中，科研人员借鉴人脑认知的原理，设计了一个巧妙的实验：让大模型和人类玩“找不同”游戏。实验人员从1854种常见物品中给出3个物品概念，要求选出最不搭的那个。通过分析高达470万次的判断数据，科研人员首次绘制出了大模型的“思维导图”——“概念地图”。

何晖光介绍，他们从海量实验数据里总结出66个代表人工智能如何“理解”事物的关键角度，并给它们起了名字。研究发现，这些角度非常容易解释清楚，而且与人脑中负责物体加工的区域的神经活动方式高度一致。更重要的是，能同时看懂文字和图片的多模态模型，“思考”和做选择的方式比其他模型更接近人类。

此外，研究还有个有趣发现，人类做判断时，既会看东西长什么样，比如形状、颜色，也会想它的含义或用途，但大模型更依赖给它贴上的“文字标签”和它学到的抽象概念。“这证明，大模型内部确实发展出了一种有点类似人类的理解世界的方式。”何晖光说道。

【责任编辑：张瑨瑄】