HiMo-CLIP入选AAAI2026Oral 联通元景突破跨模态对齐瓶颈

来源：科技日报 2025-12-15 17:14

分享到微信

科技日报记者崔爽

来自Google的Gemini 3模型掀起新一轮的多模态技术浪潮，“读图”与“长文本理解”成为衡量AI智商的重要标准。然而，作为连接图像与文本的“桥梁”，传统的CLIP（对比语言-图像预训练）模型在面对复杂、多细节的长文本描述时却常出现一个问题：描述越丰富，图文匹配反而越差。

近日，中国联通数据科学与人工智能研究院在这一领域取得重要进展，提出全新视觉语言对齐框架HiMo-CLIP，通过创新性建模语义层级与单调性，在不修改编码器架构的前提下，实现了长文本、短文本场景的全维度性能突破。相关论文已入选国际权威人工智能会议AAAI 2026 Oral。

据介绍，传统CLIP模型在处理文本时，往往把句子当作“一锅粥”，不能在复杂的上下文中捕捉到最具区分度的特征。这将导致两个典型问题：语义层级和语义单调性的缺失。

为了让AI“越来越懂”，HiMo-CLIP提出两个核心组件，即层次化解构（HiDe）、单调性感知对比损失（MoLo），让模型具备了“分层理解”和“越详细越匹配”的能力。

HiMo-CLIP的提出标志着多模态学习从“扁平化”向“结构化”的重要转变。正如论文中所说：“对齐跨模态表示的多个语义抽象层次，对符合认知的视觉-语言理解至关重要。”这一突破不仅提升了长文本检索性能，更为AI系统理解人类语言的丰富层次结构铺平了道路，让机器真正“看懂”我们描述的世界。

据了解，中国联通数据科学与人工智能研究院将持续深化多模态对齐技术的创新与应用，攻克多模态理解中复杂语义结构建模的关键环节，让具备认知一致性的AI模型在智能客服、医疗影像分析等更多场景中发挥核心价值，推动多模态智能技术向更智能、更可靠、更贴近人类认知的方向发展。

【责任编辑：蔡东海】

专题

推荐阅读

关于我们 | 联系我们

中国日报网版权说明：凡注明来源为“中国日报网：XXX（署名）”，除与中国日报网签署内容授权协议的网站外，其他任何网站或单位未经允许禁止转载、使用，违者必究。如需使用，请与010-84883777联系；凡本网注明“来源：XXX（非中国日报网）”的作品，均转载自其它媒体，目的在于传播更多信息，其他媒体如需转载，请与稿件来源方联系，如产生任何问题与本网无关。

版权保护：本网登载的内容（包括文字、图片、多媒体资讯等）版权属中国日报网（中报国际文化传媒（北京）有限公司）独家所有使用。未经中国日报网事先协议授权，禁止转载使用。给中国日报网提意见：rx@chinadaily.com.cn

C财经客户端

扫码下载