多模态数据趋势下,滴普科技助力AIGC实现高质量数据治理

2023-05-26 11:21 
分享
分享到
分享到微信

在ChatGPT的带动下,大模型概念越来越火热,仅国内就有包括百度、阿里、腾讯、京东、科大讯飞在内的多家互联网、AI公司陆续宣布对大模型展开探索。不过,也有另外一种声音表示,虽然大模型在推进产业智能化升级中已表现出巨大潜力,但目前距离大规模产业应用依然存在诸多未知。

回归大模型本身,其主要依赖算法、算力和数据的综合支撑,这三大要素缺一不可,特别是数据质量的高低,往往决定AI算法模型的性能上限。大模型训练一般需要经过预训练、强化学习、应用三个阶段,期间需要对数据进行获取、清洗、训练、调优、对齐等数据管理。因此,大规模原始数据的获取,高质量的数据清洗,对模型训练至关重要。

湖仓一体作为一种新型的数据架构,为解决数据高质量问题提供了可能性。那么,大模型为什么需要湖仓一体架构的的数据平台来支撑呢?

从参数规模上看,AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到万亿级的突破,数据量极大,比如GPT-1是上亿规模的参数量,数据集就使用了1万本书的BookCorpus,25亿单词量,GPT-2参数量达到了15亿规模,GPT-3模型数据量更是超过百亿。如此巨大规模的数据量,必然面临数据质量参差不齐、有效数据难以抓取的问题。

从数据类型上来看,除了语言之外,图像、视频、音频、语义文本等多模态数据的出现,对数据采集、数据处理的技术也提出了更高的要求。

然而,大多数企业采用的数据仓库无法实现存算分离,数据湖的计算能力又明显不足,而湖仓一体结合了数据湖和数据仓库优势,存储和计算分别使用单独的群集,这样系统能够扩展到更多并发用户和更大数据量,且支持底层多种数据模型并存,支持异构数据的实时查询和分析,流数据分析、机器学习等,可以有效提升数据管理水平。

目前,国内外各大厂商都在研发“湖仓一体”架构,如亚马逊云科技的Redshift Spectrum、微软的Azure Data Lake、Databricks、华为云的FusionInsight、滴普科技的FastData等,赋能到各行业数据平台建设,实现海量、高维多源多模态的实时数据处理。。

滴普科技实时湖仓平台FastData,采用存算分离架构,提供多种数据类型的统一存储能力,具备数据入湖、实时计算、即席分析、湖仓管理、统一元数据管理等核心功能,支持PB级多模数据存储与处理,并基于DLink Mesh架构扩展支持分布式多级数据湖,具备统一的多租户权限和安全管控机制,支持流批一体数据处理、数据分析、数据科学等多工作负载。

特别是对于大模型存在的多个数据源集成带来的数据错误、重复内容,实时湖仓平台FastData可以覆盖数据资产化全流程进行质量监管和检验,通过数据治理体系建设,帮助企业沉淀标准的专业服务和数据资产分析场景库,保证数据口径的一致性,提升数据资产的完整性、准确性、一致性。

作为 “Data+AI”数据智能领域的领先实践者,滴普科技十分重视数据智能技术的创新价值,积极在AI大模型领域进行产品创新,逐渐构建了数据基础设施+数据治理的产品服务模式,为大模型产业提供数据底层基础设施建设。

在此基础上,滴普科技在基础产业与垂直领域进行数据智能模型创新,探索产业大模型体系。滴普科技成立了专门的FastAGI产品线,通过将开源模型本地化,以及基于行业知识形成行业领域模型,赋能到客户的业务领域中。

当前,大模型主要分为通用模型、垂直模型,如垂直的AI大模型就是针对某个特定领域或者场景,利用行业的数据和知识,提供更精准和高效的解决方案。未来,滴普科技也将继续发挥湖仓一体数据智能技术优势支持大模型发展,并提供业务垂直领域的数据智能模型创新服务,以模型+算力驱动企业数据智能决策。

免责声明:该文章系我网转载,旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议,仅供读者参考。
【责任编辑:钟经文】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn