11月8日上午,2025年世界互联网大会乌镇峰会“人工智能引领科技创新和产业创新融合发展”论坛在浙江乌镇举行。论坛以“人工智能引领科技创新和产业创新融合发展”为主题,重点探讨了推动人工智能与千行百业深度融合、协同创新的方向与路径。本次论坛由浙江省人民政府主办,浙江省经济和信息化厅、浙江省互联网信息办公室共同承办,浙江省工业和信息化研究院、西湖大学、浙江省数字经济联合会、浙江邮电职业技术学院协办。国际欧亚科学院院士、华为终端BG首席科学家田奇发表主旨演讲。
全文如下:
感谢大会的邀请,很荣幸在这里给大家分享一下我们的想法。
我自己是在2020年开始在公司立项做盘古大模型,几年以后又从华为云转到终端,目前我们做AItoC的东西。
这两年AI大模型,人工智能发展得如火如荼,一日千里、日新月异,作为从业者我们也感到非常内卷,压力也很大,很多的东西层出不穷。
现在AI大模型正在重塑千行百业,成为新时代的人工智能的标配,各个大厂,国内的国外的都在发展自己的AI大模型和AIagent。我这个报告希望探讨两个基本的问题,第一个是做什么的问题,大模型是人工智能的终极形态吗?如果不是未来应该是什么?第二个是我们在这里终端应该怎么做?怎么推动大模型走向未来的形态?目前最重要最困难的问题是什么?
我们希望实现AGI通用人工智能,甚至是ASI超级人工智能,但什么是通用人工智能呢?传统的概念定义就比较抽象,比如说是完成一切人类和动物能够完成的任务的计算机程序或者是系统,但是这种概念非常抽象很难实现。
另外一种就是形式化的定义,比如说给定一个状态空间动作集合,定义一些奖励函数,人工智能实现AGI的目标就是找一个策略函数,使得奖励函数最大化,在这样的定义下,看看过去10年有哪些成功案例?
有三个,一个是AlphaGo(下围棋),一个是Alpha star(游戏),以及2022年点爆新一轮浪潮的ChatGPT,都是按照形式化定义的。从它们的成功可以看到,或者是导出AGI有两个基本的基石,一个是构建好的交付环境,这里就是讲定义状态,动作、转移函数,奖励函数。
另外一个就是要有足够能力的模型,基座模型的训练,所以构建好的交付环境和强大的基础模型是通向AGI的两个基础。
在华为终端我们现在做小艺,希望按照这种形式化的定义导出AGI,但是目前实现AGI的条件不成熟。一个是模型方面,语言模型的推理能力不足,多模态,为什么多模态呢?因为在终端1+8的终端设备天然的就是对全模态信息的感知,从文本到语音到图像到视频。
目前的多模态理解和生成还是独立的模型,范式还没有统一,另外在交付环境上真实性和交付性还无法兼顾。
因此,另外就是在终端这个产业人工智能现在也诞生了一些新的设备,像AI眼镜、AIpin这样的穿戴式设备,但是这些设备有一个实时在线的特征,实时在线体现了这些设备对周边物理环境的理解,和Y模型的能力是相匹配的。
我们认为终端产业的下一代是走向具身智能非常大的市场,具身智能是具有高门槛、大空间、长周期的产业,但是需要结合AI大模型打造商业的爆点的应用。
我认为具身智能是非常适合华为来做的,因为华为终端我们以agent作为核心的战略,去年我们也发布了AIagent的白皮书,按照用户体验出发把它进行智能化的分级,就像智能驾驶一样分成L1到L5,总的原则是人工智能AI服务人,与人协作,但是关键决策还是人来做。
但是具身智能目前也有不同的一些观点,业界的主流观点像physical intelligence的CEO,他认为具身智能目前最大的瓶颈就是在于模型的智能。
图灵奖得主杨立坤也说真正的智能是要建立在世界模型的基础上,这也是我们为什么要做世界模型的motivation。
Word model开放性的论文在2018年提出,到去年年初大家知道Sora是视频生成的模型,它也被认为是一种世界的模拟器。
今年6月份Meta发布了V-JEPA2,也是从视频中提取语义,主打机器人的抓取和移动的能力,在8-9月份的时候谷歌DeepMind发布了Genie3,Genie也是一种基于视频生成可交付的虚拟环境,通过鼠标和键盘可以进行navigate。
李飞飞的空间智能也是属于这一类,同时世界模型在业界还没有达成统一的共识,不同的大脑之间也有不同的观点,针对不同的应用,比如说是否与物理世界进行交互还是不需要交互?是不是关注一些抽象的表现还是因果的关系,还是需要做到模型的精确的预测?
因为我们在终端关注的是自动驾驶和具身智能,我认为我们必须与物理世界进行交互和更多的模型做到精准预测。
当然了,OpenAI前首席科学家伊尔亚·苏茨克维也有自己的一些观点,所以就回到这个问题,在终端怎么做?我们刚刚讲的是围绕1+8的终端设备,手机、平板、大脑、大屏幕、手表、手环、音箱、智能座舱等等,它们对物理世界的感知就是全模态的,因此首先我们认为要从单纯的自然语言走向多模态。
第二个要从过去的简单的感知,比如说做二维的图像分类,现在走向复杂的场景、高维的世界,所以我们第二个来讲要做复杂场景的交付。
基础模型来说我们应该加强语言的推理能力,多模态的理解与生成的统一架构,在复杂场景,一个是复杂任务的理解,长视频理解。第二个是专注三维的重建,生成与交付,只有在这两个方向实现突破以后,才能建立统一理解生成支持复杂交付的多模态大模型,那个时候是不是我们说的世界模型,那个时候再看。
因此,我们聚焦基座模型,语言模型,同时当然我们认为智能的核心还是大语言模型,但价格方面来讲,transformer仍然是主流的架构,其他的架构在探索,像Mamba、RWKV它们虽然有速度的优势,但是性能有差距,因此并没有被工业界大规模的采用。
在语言模型来说,把扩散用于语言模型也刚刚起步,虽然可以加速推理,但是随着序列的增长,算力的需求是指数增加的,因此在这里也存在挑战问题,如何使用agent对用户意图进行准确的理解和对智能设备的智能操控,如何构建合适的高性能的端侧模型,针对手机是1B的模型,3B的模型,还是针对PC、智能座舱等等来满足功耗、内存、带宽的需求。
另外对一个基础模型来讲,是多模态理解与生成的统一架构,过去多模态的理解,多模态的生成是独立的架构,不同的是编码器,这里时间原因统一是必要的,简单来讲大道至简,并且多模态融合的统一感知与生成,使人们可以通过端侧设备与物理世界更好的交付,用在小艺看世界AR眼镜里面。
但是统一架构面临很多的挑战,架构的冲突,模型规模的冲突,多模态理解的模型可以在千亿以上,但是多模态生成基本在10B到20B之间,当然优化目标不一样,损失函数不一样,因为统一架构的方向有很多不一样,第一个有没有统一的tokenizer,能不能首先统一起来,进一步统一文本、音频、视频的tokenizer,第二个到底是基于AI的统一还是基于扩散的统一,还是有别的高效的方式?在MOE模型中到底是哪些参数共享,哪些实现解耦等等。
这个是基础模型在复杂场景交互来讲,一个新的观点,目前我认为长视频理解将代替过去的静态图像,比如说分类检测分割,成为多模态理解的下一个主要的研究对象.
对视频语义理解的上限是取决于图像编码以后的上下文上限,当然要理解它也有很多的问题,海量的数据,复杂的逻辑知识,以及如何在终端场景中发挥作用。
最后一个是复杂场景理解,我们认为3D的重建与生成,这个是建模真实物理世界的基石,挑战问题是目前如何以更快的速度构建大规模的3D的预试验模型,那么过去需要很多小时,后来到分钟级,现在希望到秒级,实时就可以生成,以更低的门槛,比如说手机这样的终端设备就可以进行创造3D内容。
当然其他的如何构建物理意义明确,可交互仿真,具备长期实控的3D环境,在终端也有很多的应用。
最后除了3D生成做到无限3D场景的扩展,从城市室内到自然的场景,去年有一个4D-GS的办法也被Deepmind、谷歌、微软、英伟达广泛使用。
最后是一个最近的工作叫WorldGrow,刚刚发布出去,给大家看一下。
(视频播放)
这是一个试验场景的生成扩展,从一个block扩展到9×9个block,19×19个block再到任意大的长度。
比如说robot可以在环境里进行navigate,并且将来与环境交互,升级完成一定的任务,再扩展到下一步从室内到室外,这个是生成的过程。
刚刚说到我们认为人工智能的大模型的下一步是世界模型,但是仍然面临几个重要的挑战,从过去的静态的没有交付环境的到现在4D、可交互、动态生成的,过去聚焦专有的视觉任务,比如说图像的分类检测分割识别到现在的端对端大一统的通用视觉任务,我们聚焦的方向是释放基础模型的能力,全力构建好的交付环境,设计多模态的统一架构,以期走向下一代更加强大的世界模型,谢谢大家!