我国成功研制全球最大天文AI训练数据集

来源:中国日报网    2025-12-19 17:43
来源: 中国日报网
2025-12-19 17:43 
分享
分享到
分享到微信

近日,贵州大学张利教授团队成功研发出全球规模最大、效应最全的天文AI训练数据集--ADAM(Astronomical Data for AI Modeling)。这一成果在贵州省贵阳市正式面向全球发布,标志着我国在射电天文与人工智能交叉领域取得重大突破,为应对射电天文观测数据激增与效应解析的双重挑战,奠定了关键且坚实的数据基座。

当前,全球天文学正面临数据爆炸式增长带来的严峻挑战。随着国际大科学工程SKA(平方公里阵)与中国FAST(500米口径球面射电望远镜)核心阵列等新一代望远镜阵列的投入建设或使用,海量观测数据中各类复杂效应及多效应耦合干扰,成为制约天文数据精准解读和重大科学发现的关键瓶颈。

人工智能技术被视为破解这一难题的高效路径,而高质量、大规模数据集是实现天文数据价值深度挖掘与技术迁移的基础。张利教授团队历时多年攻关,系统复刻射电望远镜阵列的观测效应,最终打造出亿级天文AI训练数据集(ADAM)。截止目前,该数据集规模达6亿1248万张图像,且数据仍在持续增长。若以单张图像5MB的存储量计算,其总容量已超304TB,相当于152万个2GB的U盘的存储总量。

ADAM数据集的构建突破了传统单一维度的研发模式,创新性地采用“多观测效应协同模拟”方法。全面覆盖SKA中低频阵列、FAST核心阵列及FAST阵列的模拟观测,不仅具备多维度特征,更高度还原真实观测中的复杂影响,为AI模型学习天文规律提供了符合观测实际的训练素材。

该数据集将赋能多场景应用。它能支撑恒星演化、星系形成等重大课题研究,辅助探测脉冲星、超新星爆发等未知天体;在大科学工程中,可用于验证望远镜性能、优化观测计划,提升设备运行效率;在人工智能领域,则为天体识别、数据降噪等模型训练提供核心素材,推动AI技术与天文研究的深度融合。此外,数据集的处理方法可跨领域迁移,可视化数据还能服务于科普教育,激发公众对宇宙探索的兴趣。

ADAM数据集作为全球首个系统覆盖射电天文关键效应及多效应耦合场景的AI训练资源,填补了射电天文观测效应AI训练数据集的空白。可有效支撑“东数西算”工程在科研领域的落地应用,优化国家天文数据资源配置。可深度赋能“人工智能+天文”行动,加速AI技术与天文领域的融合创新,为全球射电天文研究与科学突破提供重要数据支撑,推动天文智算中心建设。进一步提升我国在射电天文的优势地位,保持在该领域持续领先。

这一成果以“无国界的科研资源”姿态,成为全球天文合作的重要纽带,助力构建开放共享的治理格局,为人类认知宇宙提供坚实数据基座。“ADAM不是‘终点’,而是支撑‘人工智能+全球天文’研究的‘起点’。”张利教授表示,团队后续将持续深化数据迭代,推动跨领域合作,促进重大科学突破。(图片由高欣授权提供)

以上内容为推广信息,所涉及内容不代表本网观点,不构成投资建议、消费建议。

中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn