6月10日-11日,由云原生计算基金会(CNCF)和Linux基金会联合主办的KubeCon+CloudNativeCon China 2025,在中国香港盛大召开。作为全球云原生与开源顶级会议,大会汇聚了来自全球的开源开发者、技术领袖、企业代表及终端用户,深度探讨云原生与AI融合的最新进展与未来趋势,共同见证了这一技术盛宴。
作为全球云原生技术与开源生态建设的先锋,华为携10多位大咖和技术专家深度参与本次大会,带来了3场Keynote 主题演讲及10多个技术分会场的分享,全方位展现了在云原生与 AI 融合领域的突破性成果。
开源生态引领AI时代技术跃迁
开源作为加速创新协同的重要范式,汇聚全球智慧、缩短创新周期、催化更多创新应用落地,也为下一轮技术革命创造指数级价值。
会上,华为首席开源联络官、CNCF基金会董事任旭东带来《Towards Clouds of AI Clusters》的Keynote主题演讲,分享了AI时代的算力集群技术演进趋势,华为在异构集群管理、超大规模集群调度、云边协同AI等领域的应用实践等。
任旭东表示,当前企业在管理AI工作负载时,仍面临严峻挑战,尤其是在大模型训练、推理中对算力规模和集群协同的极高要求。集群并行计算提升算力规模将是企业突破算力瓶颈、实现大模型落地的必由之路。
为响应上述需求,华为从硬件驱动到集群资源调度实现算力设备的统一管理,支持HyperNode与多集群拓扑感知调度,并对PyTorch/TensorFlow/MindSpore等主流框架、大语言模型(LLMs)及智能体开发场景提供统一支持的全栈开源基础设施解决方案。
“通过openEuler、Volcano、Karmada、KubeEdge、openFuyao五大项目,华为实现了从操作系统到平台层的全栈开源打通与落地,帮助企业实现AI集群内优化、跨集群协同和云边协同,从而破解人工智能发展算力基础设施上面临的困局。”
Volcano+Karmada驱动
B站亿级月活云原生AI调度跃迁
华为云云原生开源负责人,CNCF技术监督委员会副主席王泽锋联合BiliBili资深开发工程师许龙,发表《Bilibili构建高效云原生AI平台的实践之路》的Keynote主题演讲,深入探讨视频网站人工智能工作负载调度优化路径。
Bilibili 拥有上亿月活用户,围绕视频业务覆盖搜索推荐、图像处理、视频编解码等多种应用场景。在 AI 技术深度渗透视频处理、模型训练等场景的当下,B站面对负载多样性、多集群管理等算力挑战,构建了以 Volcano 和 Karmada 为核心的调度框架:单集群侧通过 Volcano 实现 Workload 统一调度,引入等价类调度与 JobSet 对象优化性能;多集群层用 Karmada 支撑在线任务联邦调度,自研轻量系统解决离线高吞吐需求。结合 GPU 共享调度、编解码混合等三种模式,在提升资源利用率的同时,为 B站 AI 应用落地提供了高效的云原生算力支撑。
Volcano 助力科大讯飞实现AI基础设施突破,
赢得 CNCF 最终用户案例
会上,华为云云原生团队高级工程师常旭征联合科大讯飞平台架构师董江,发表《Scaling Model Training with Volcano: iFlyteks Kubernetes Breakthrough》的Keynote主题演讲,分享基于Volcano的云原生 AI 训练资源调度优化方案。
科大讯飞在大规模模型训练中借助 Volcano 实现关键突破:通过构建基于 Volcano 的统一计算平台,集成 AirFlow / Spark 等传统任务框架,以队列机制解决多租户资源公平分配问题,同时运用 Gang 调度、Binpack 算法及拓扑感知策略,将 GPU 利用率提升 40% 以上,故障恢复时间缩短 70%,资源干扰率降低 50%,保障业务稳定性和资源使用灵活性。
Volcano 是华为云发起开源的业界首个云原生批量计算引擎,也是 CNCF 首个批量计算项目,主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,能力涵盖队列与资源管理、统一作业 API、多样化调度策略、在离线混部、GPU 虚拟化、异构算力支持及性能优化等关键领域。针对当前大规模AI集群的性能问题,Volcano 新增基于 HyperNode 的网络拓扑感知调度策略,大幅提升人工智能训练和推理效率。
Cloud Native for AI:
多领域技术创新使能产业升级
Karmada:破解AI任务部署多集群编排难题,支撑大规模数据平台的弹性与可靠性
Karmada 作为云原生多云多集群管理引擎备受用户与开发者欢迎。来自华为云的Karmada 社区 Maintainer 任洪彩,围绕 Karmada 的技术更新、核心特性、实际应用案例及社区生态,讲解了近期版本中备受关注的应用跨集群滚动更新,有状态应用故障迁移,优先级调度机制,Dashboard,联邦资源配额等特性。
同时,华为云技术团队也与Bloomberg 进行了社区合作交流。Bloomberg 分享了其利用 Karmada 构建弹性数据分析平台的实践经验,展示了 Karmada 在多集群管理场景下的优势性能。通过功能迭代和生态扩展,Karmada 解决了企业在跨集群管理中的核心挑战,Bloomberg 等企业的实践证明,Karmada 能够有效支撑大规模数据平台的弹性与可靠性需求,未来在 AI 训练、边缘计算等场景的拓展值得期待。
KubeEdge赋能多领域、多场景边云协同AI智算
来自华为云云原生团队的KubeEdge社区Maintainer鲍玥,携手社区伙伴,带来4场云原生边缘计算技术演讲,议题涵盖KubeEdge大规模实现、落地案例分享以及社区治理工作等多个方向。在 “KubeEdge社区新特性解读及多元场景案例” 、“使用混沌工程构建超大规模云原生边缘系统” 、“KubeEdge 深度探索:架构、用例和项目毕业动态” 系列议题中,KubeEdge分享了社区在智慧物流、机器人编排等领域的行业案例,介绍了项目在边缘场景中发挥的统一化管理、边缘自愈、实时性等优势,同时也带来了社区最新的新特性,包括支持批量边缘节点管理,全新DashBoard,子项目Sedna支持HPA等,以及在支持大规模场景的探索实践。
作为CNCF 首个云原生边缘计算毕业级项目,KubeEdge 的毕业旅程备受关注,在“ KubeEdge毕业探索:从零开始构建多元化、协作型开源社区”圆桌中,KubeEdge TSC 等技术专家, 共同向参会者分享总结了 KubeEdge 在社区发展与毕业历程中所做的工作,从技术成熟度、采用率、社区多样化、中立性等多个角度探讨社区健康发展的关键要素,并对 KubeEdge 毕业后的工作进行了规划与展望。
Kmesh:内核级流量治理引擎, 高效应对大规模流量应用需求
Kmesh是集高性能、低开销及安全可靠于一身的内核级云原生流量治理引擎。本次大会上,来自华为云的 Kmesh 社区技术专家徐中虎一行,在 4 场议题演讲中分享,涵盖 Service Mesh 高性能、低底噪、安全性,易用性方面的探讨。本着轻量、易用、应用无侵入的设计原则,Kmesh 使用 eBPF 将 Service Mesh 彻底革命,推出业界极具竞争力的 Sidecarless 方案,在性能和可靠性上遥遥领先。
Kmesh 从高性能、低开销技术愿景出发,借助kfunc,内核原生模式将流量治理能力完全下沉到 Kernel Space。同时,为解决 Service Mesh 重启升级影响用户业务稳定性的问题,Kmesh 用 eBPF prog 和 BPF Map 与 Kmesh Daemon 运行进程分离的方式,实现重启升级不影响业务已有连接,减少了Service Mesh 对业务稳定性的影响。Kmesh 创新性地利用 Linux 内核的 XDP 技术,在网络包进入内核协议栈之前就进行快速处理,极大地降低了时延,提高了吞吐,克服了在处理大规模流量时,用户态鉴权存在的瓶颈,实现了服务间极致的鉴权性能。
openGemini:高性能时序数据库,降低企业业务成本
openGemini 是一款高性能时序数据库,主要面向物联网,车联网和运维监控等场景,为用户提供海量时序数据的高效存储和查询。openGemini 目前已经在能源、电力、航空航天、devops、物联网、车联网、矿山、大宗物流等 9 大领域应用落地。本届 KubeCon China,openGemini 正式以 CNCF Sandbox 项目的身份参与。
会上,来自华为云的openGemini 社区 Maintainer 向宇,向与会者介绍了openGemini 技术特性与未来规划,并重点介绍了数据多副本及流式计算两个重要新特性,多副本可满足多数业务对数据可靠性的需求,同时社区将流式计算融入内核,简化业务架构,降低业务成本。
openFuyao:为世界提供多样化算力集群软件生态
openFuyao架构师姚晓忠带来“构建计算亲和性云原生生态系统”主题演讲,他表示, 在“云原生+AI”的新范式时代,面临软件生态适配不足、AI负载特性复杂、软件工程复杂度提升等技术挑战。为此,openFuyao打造多样化算力互联的集群管理与调度体系,促进AI和大数据场景有效算力的高效释放,构筑算力亲和的高性能应用生态社区,为开发者和伙伴提供创新解决方案。会上同步介绍了首批开源的五大集群调度能力及两类面向常用场景的参考实现,并在现场同与会专家热烈讨论如何通过openFuyao来构建具有高效计算集群管理能力的云原生系统。
AI-Native创新,加速全球智能化
除了以上提到的主题分享之外,华为展区更是引来众多参会者驻足交流。华为云讲解专家向与会者展示了AI-Native的云原生基础设施,包括 UCS,CCI,CCE Autopilot,CCE Turbo 等多个行业级云原生代表产品,并介绍了在 KubeEdge、Volcano、Karmada、Kuasar、openGemini、Kmesh 等业界首创开源项目中的技术创新成果。
openFuyao携“云原生+AI”产业融合硬核方案惊艳亮相,吸引开发者驻足交流,共探落地实践场景。
展区还展示了华为围绕鲲鹏、昇腾所构建的全栈生态和最新进展,通过发起包括服务器操作系统openEuler、企业级开源数据库openGauss、AI框架昇思MindSpore、昇腾AI算力底座CANN等在内的开源社区和项目为世界提供第二选择。同时积极参与主流上游开源社区的鲲鹏、昇腾使能和优化,已经实现了覆盖从底层硬件、操作系统、数据库到AI框架的全栈能力,通过软硬协同、多元硬件生态及云原生技术整合,以规模化落地成果为AI原生时代提供了坚实的“算力+生态”一体化基础设施蓝图。
未来,华为将继续与全球企业和开发者携手,通过开源汇聚全球智慧,共同应对当前的挑战,推动AI和云原生技术的创新与应用,为千行万业智能化转型、为构建全球智能化未来,贡献力量!
免责声明:该文章系我网转载,旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议,仅供读者参考。