11月8日上午,2025年世界互联网大会乌镇峰会“人工智能引领科技创新和产业创新融合发展”论坛在浙江乌镇举行。论坛以“人工智能引领科技创新和产业创新融合发展”为主题,重点探讨了推动人工智能与千行百业深度融合、协同创新的方向与路径。本次论坛由浙江省人民政府主办,浙江省经济和信息化厅、浙江省互联网信息办公室共同承办,浙江省工业和信息化研究院、西湖大学、浙江省数字经济联合会、浙江邮电职业技术学院协办。欧洲科学院院士、西湖大学人工智能讲席教授金耀初发表主旨演讲。
全文如下:
大家好!我是西湖大学的金耀初,今天非常高兴有机会参加这个论坛,我今天分享论坛的题目叫《走向类脑具身智能》。
首先,为什么要做类脑?我们看人脑大概有千亿个神经元,大概是860亿神经元,但是能耗却非常低,大概只有20瓦。另外一方面,人的基因大概是2-2.5万个基因,大家可以想象一下这么少的基因,为什么能够编码这么复杂的系统,除了大脑之外,还有很多身体其他的部分。
第一,现在大模型功能非常强大,但是跟人脑相比,还有哪些它不具备的东西?首先人脑不只有一个通道,一般大模型都是从信号进来,然后做一些推理,最后得出一个结论,但是人脑不只有一个通道,至少有从上而下,从下而上的两个通道。第二,人在完成不同事情的时候,功能性自主调整是一个不断地可塑性。第三,人脑有不同的记忆机制,长期记忆、短期记忆和工作记忆等等。另外,我们还有一个重要的机制就是决策和预测能力。
为什么大模型现在能耗这么大,不管是训练还是推理,而人脑为什么功耗这么低,有一点大的区别是什么呢?人的大脑,包括大部分动物的大脑,用的信号是脉冲信号,不是连续的,一个一个脉冲事件驱动的稀疏信号,这个信息处理的方式就很大程度上比传统的大模型传统的神经网络能耗要低很多。
我们在想大脑是怎么来的?是大模型人类专家设计出来的,改成多少层,多少个结构,有多少个神经元。而人脑是从5、6亿年神经的演化,而神经系统在生命过程当中有非常强的可塑性。
(如图)右下角有一张图,大家看到很稀疏的就是人刚刚出生的时候,大家看神经元连接非常稀疏,到了2岁又变得很密集,但是到了6岁的时候又稀疏了,大家可以想象一下,大模型大部分情况下是训练好、预训练之后进行微调,这个微调也是需要人类给它微调,就固定了,人脑是有很强的可塑性。
在过去20多年时间一直想,有没有可能从自然演化和生物发育的角度来研究、理解人的智能。
(如图)我们看到左边是自然演化的环节,有父代、有子代、有基因方面的操作,从基因的发育过程变成各种各样的特征,最后有不同的生存和繁衍能力有一个自然选择,大家都知道达尔文的适者生存理论。进入到下一个框架,就把自然界的三大自身机制,就是演化、发育、学习融合在一个框架里面,这是第一个提出的观点。
第二,我们很早就提出了生物的神经系统和形态是协同发育,神经系统的发育过程跟环境、形态是密不可分的,我们现在提的具身智能道理上是很相似的。
我们过去有了很多演化发育的思想,比如说我们演化一个有不同模块的,每个模块完成不同功能,不同结构深度的脉冲大模型。我们基于Transformer架构加入一些类脑的机制,有不同的通道,有自上而下的通道,或者自下而上的通道,或者注意力机制的调整使得结构更灵活。
人脑的工作机制有不同的通道,其实里面还有很多神经调控机制,这些调控机制如果结合起来也能够实现很多非常灵活、自适应、可塑性的结构。
接下来讲一下具身智能,具身智能是目前非常热的领域,用的方法除了大模型、强化学习或者是模拟学习的方法,使得我们具身智能体有很强的能力,有各种各样的应用和实现。本质上来讲,具身智能还面临很大的挑战,比如说不同平台之间的移动机器人还是人形机器人,或者是无人机还是机械臂,不同的任务之间,比如说今天教他取一个杯子,明天让它捡一个垃圾,它会不会做?肯定就不一定会做,这是泛化能力。第三是环境,它在这个环境里面学会了做一件事情,下一个环境会不会做这件事情,也不一定,所以它需要有一个连续需要和自我进化的能力。
接下来我放一段视频,是我们在机器人操作方面,全身运动和操作结合的一些例子,这些例子看起来还是非常简单,一些初步的工作,但是用到的概念要有全身协同,和手和身体运动的协同,同时也要完成各种不同的任务。
我们关注操作主要是我们觉得如果把具身智能用于真正赋能生产过程,包括室内照顾老人的场景,手的操作非常重要,是非常具有挑战性的研究方向。
这是我们目前还在做的工业相关的带电作业场景,比如说很多输电线,我们现在还需要工人操作,特别是在冬天特别冷,高空作业一段时间,工作状况非常恶劣,我们和电力公司合作,希望用双臂的机器人实现一些最基本的带电作业的任务。
再就是柔性装配的场景,通过大模型、知识图谱的工具,让机器人实现做一些柔性装配,我可以告诉它你可以装一个电视机、明天装一个电冰箱,把工艺流程自己规划好,最后实现自主的作业。
讲到具身智能一个非常重要的问题需要关注就是安全,从大模型而言,我们都知道有幻觉,如果把大模型放在机器人之上,安全就变得更为重要,大模型的安全不只是推理安全,不只是决策安全,还有感知安全和多智能体的协作安全,当有了具身之后必然跟别的智能体,或者跟人类进行交互,这个时候也会引入更多的风险,所以我们就需要非常重视具身安全。
我前面的主题就是从类脑计算到具身智能,为什么这么做?具身智能面临的挑战有很多泛化能力需要解决,我们希望通过类脑对结构的自我调整,能够赋予具身系统能够自主学习的能力。
这是我们的构思,比如说首先不再是传统的交给具身机器人一个典型的任务,而是让它完成不同任务,在完成不同任务的时候,它的控制装置、神经系统通过不同的任务自主地调节功能性结构,更好地完成不一样的任务,实现自主学习和作业。
我今天的分享就是这些,传统的大模型有很多局限性,包括能耗大,没有自主学习的瓶颈。基于类脑的神经网络,基于事件驱动,稀疏激发、能耗低。我们把大脑的很多许多机制,包括可塑性、调控机制,不同的通道等等,使得赋予我们这样的具身系统有更强的自主学习能力,更好地泛化能力。我们将两个概念融合在一起,实现自主感知、自主决策和自主行为。当然如果讲安全就是希望具身智能系统有人类的价值观、安全可靠。
前面卢山副省长讲了两个关键词,一个是智能体,一个叫具身智能,我们把类脑和具身智能合在一起,就是希望具身智能体有自主学习能力,自我决策能力,实现这两方面的能力。
我今天的分享就到这里,请大家批评指正。