构建业界领先AI大模型语料共享新模式 高性能“基座”开建

构建业界领先AI大模型语料共享新模式 高性能“基座”开建

来源:中国日报 2024-08-19 22:15
  • weixin
  • weibo
  • qqzone
分享到微信

中国日报8月19日电(记者 赵磊)支撑人工智能大模型高质量成长的语料数据将告别无序流通,转入规范运行的“高速公路”,在区块链、隐私计算等前沿信息技术的护航下,隐私安全保护、流通增值激励同步加持,构建起业界领先的人工智能大模型语料数据共享新模式。基于该模式,高价值语料可信流通基础设施今天正式启动建设。

据悉,高价值语料可信流通基础设施由国家区块链技术创新中心、北京能源集团牵头,联合新华社国家重点实验室、中国通用技术集团等10余家我国语料数据重点单位共同打造。这对于加快形成人工智能大模型训练高地,推动我国人工智能弯道超车、跨越式发展,具有里程碑意义。

以区块链、隐私计算为代表的新一代信息技术,凭借着可信存证、不可篡改、易确权、充分保护数据隐私安全等优异性能,可以保障语料数据可信安全地流通、使用和管理,有效破解上述难题,彻底摆脱人工智能领域语料流通越来越慢、语料质量越来越低的“泥潭”。

今年以来,我国一批语料数据重点单位已经开始行动。不久前,新华社国家重点实验室、人民网、高等教育出版社、中国通用技术集团等10余家单位联合国家区块链技术创新中心,共同成立了高价值语料可信安全流通生态体系。

作为北京市骨干能源企业,北京能源集团近年深度支撑北京市人工智能等领域的数字新基建,由该集团承建和运营的北京人工智能公共算力平台已正式上线,可有效满足北京市高校、科研院所、中小微人工智能企业的需求。

在8月19日举行的2024北京人工智能生态大会上,国家区块链技术创新中心介绍,高价值语料可信流通基础设施将运用我国自主可控、性能领先的区块链软硬件技术,搭建起覆盖全国的分布式语料数据互联互通桥梁,链接语料供给方、加工方、需求方,实现全国分布式语料数据可信接入,跨地域可发现、可访问,形成高质量语料数据集;同时,运用创新隐私计算技术,通过“数据不出域、可用不可见”的方式,保障大模型高价值语料数据在处理加工和模型训练过程中无法二次非授权传播;此外,该基础设施还将通过智能合约开展链上激励,为语料资源供给与流转提供持续性的内生动力。

在高价值语料可信流通基础设施的支撑下,国家语料数据的重点单位还将开展基于区块链与隐私计算的语料数据可信安全流通规范制定,形成高价值语料数据流通与增值的可持续生态,推动我国人工智能领域通用大模型与行业大模型的高质量发展。

【责任编辑:马芮】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn
C财经客户端 扫码下载
Chinadaily-cn 中文网微信