中国电科倾力打造国内首个大数据“辞海”

随着数字经济浪潮席卷全球,大数据产业“炙手可热”。在大数据产业蓬勃发展的同时,伴随着数据释义与内容格式不规范、数据标准难统一等问题,严重制约了大数据资源整合和规范发展。针对这个问题,中国电科大数据院正在打造国内首个大数据领域词典,让数据资源标准化、规范化,能够直接使用,提高数据的利用率。

中国电科倾力打造国内首个大数据“辞海”

来源: 中国日报网
2020-03-06 20:03 
分享
分享到
分享到微信

中国日报北京3月6日电(记者 赵磊) 记者从中国电子科技集团有限公司获悉,随着数字经济浪潮席卷全球,大数据产业“炙手可热”。在大数据产业蓬勃发展的同时,伴随着数据释义与内容格式不规范、数据标准难统一等问题,严重制约了大数据资源整合和规范发展。针对这个问题,中国电科大数据院正在打造国内首个大数据领域词典,让数据资源标准化、规范化,能够直接使用,提高数据的利用率。

3月3日,贵阳高新区中国电科大数据研究院,技术人员正在围绕如何开展数典工程展开激烈地讨论。“数典工程简单来说就是打造一本大数据领域的词典,就像我们经常使用的新华词典一样,是用于规范大数据技术发展与融合应用的一种基础工具。”大数据院刘汪洋博士介绍到。

俗话说,没有规矩不成方圆。“中文有辞海,药学有药典,但大数据却没有类似的系统性词典。大数据词典的缺失,为数据规范定义、统一标识以及数据融合应用等带来巨大的困难,造成数据‘难用、滥用、混用’等现象。”刘汪洋表示,打造数典是一项承前启后的基础性工程,对巩固大数据成果、引导大数据规范发展具有重要的意义。

2019年,“数典”这一概念首次在数博会上被提出,同年5月,大数据院启动“数典”策划论证工作,针对数据释义与内容格式不规范、数据标准难统一等问题,提出了打造国内最大规模的数据基础资源集智平台——数典工程,秉承“工具化、平台化、开放化”的建设理念,构建以数典理论为基石、以大数据词典为核心、以数典平台为载体,以标准规范为保障并拓展多项数据服务的“4+N”体系架构。

“目前,我们在使用数据资源进行融合应用时,有大量的资源和精力都花费在数据清洗上面,这很大程度上降低了数据利用效率。就相当于一个句子,你用英语说了前段、我用德语说中段、他用中文说尾段一样,虽然含义上是那个意思,但却组合不起来,需要先翻译成同一种语言。”刘汪洋说,数典工程建设最突出、最直接的作用在于让数据资源标准化、规范化,能够直接使用,提高数据的利用率。

如今,大数据院采用“理论研究+工具研制”相结合的工作思路,已累计收录了术语词条约1.8万条,涵盖了信息技术、大数据技术及其大数据行业领域,同时构建了通用领域数据描述模型约200个,以及公安、检务等行业领域描述模型50余个。目前,正积极梳理构建“互联网+政务服务”领域数据描述模型。为了更好地开展数据描述模型构建和管理,大数据院已完成数据模型管理及可视化工具研制,有力地支撑大规模数据模型存储与管理。

下一步,大数据院将持续推进“数典工程”理论研究和相关工具的研制工作。同时,计划与社会各界一起打造“数典”开源社区,提供在线权威性解释、专业化推荐、用户在线交流等服务,提高政府、企业、社会组织、个人等各方在大数据领域的用词规范性和共识度,并以“众包”模式持续推进数典的更新维护和优化完善,最终实现社会资源集智和知识赋能,助力升华贵阳大数据建设成就,扩大“中国数谷”影响力,引领大数据发展再上新高度。

(编辑:严玉洁)

( 赵磊)

中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn