近日,贵州大学张利教授团队成功研发出全球规模最大、效应最全的天文AI训练数据集--ADAM(Astronomical Data for AI Modeling)。这一成果在贵州省贵阳市正式面向全球发布,标志着我国在射电天文与人工智能交叉领域取得重大突破,为应对射电天文观测数据激增与效应解析的双重挑战,奠定了关键且坚实的数据基座。
当前,全球天文学正面临数据爆炸式增长带来的严峻挑战。随着国际大科学工程SKA(平方公里阵)与中国FAST(500米口径球面射电望远镜)核心阵列等新一代望远镜阵列的投入建设或使用,海量观测数据中各类复杂效应及多效应耦合干扰,成为制约天文数据精准解读和重大科学发现的关键瓶颈。
人工智能技术被视为破解这一难题的高效路径,而高质量、大规模数据集是实现天文数据价值深度挖掘与技术迁移的基础。张利教授团队历时多年攻关,系统复刻射电望远镜阵列的观测效应,最终打造出亿级天文AI训练数据集(ADAM)。截止目前,该数据集规模达6亿1248万张图像,且数据仍在持续增长。若以单张图像5MB的存储量计算,其总容量已超304TB,相当于152万个2GB的U盘的存储总量。
ADAM数据集的构建突破了传统单一维度的研发模式,创新性地采用“多观测效应协同模拟”方法。全面覆盖SKA中低频阵列、FAST核心阵列及FAST阵列的模拟观测,不仅具备多维度特征,更高度还原真实观测中的复杂影响,为AI模型学习天文规律提供了符合观测实际的训练素材。
该数据集将赋能多场景应用。它能支撑恒星演化、星系形成等重大课题研究,辅助探测脉冲星、超新星爆发等未知天体;在大科学工程中,可用于验证望远镜性能、优化观测计划,提升设备运行效率;在人工智能领域,则为天体识别、数据降噪等模型训练提供核心素材,推动AI技术与天文研究的深度融合。此外,数据集的处理方法可跨领域迁移,可视化数据还能服务于科普教育,激发公众对宇宙探索的兴趣。
ADAM数据集作为全球首个系统覆盖射电天文关键效应及多效应耦合场景的AI训练资源,填补了射电天文观测效应AI训练数据集的空白。可有效支撑“东数西算”工程在科研领域的落地应用,优化国家天文数据资源配置。可深度赋能“人工智能+天文”行动,加速AI技术与天文领域的融合创新,为全球射电天文研究与科学突破提供重要数据支撑,推动天文智算中心建设。进一步提升我国在射电天文的优势地位,保持在该领域持续领先。
这一成果以“无国界的科研资源”姿态,成为全球天文合作的重要纽带,助力构建开放共享的治理格局,为人类认知宇宙提供坚实数据基座。“ADAM不是‘终点’,而是支撑‘人工智能+全球天文’研究的‘起点’。”张利教授表示,团队后续将持续深化数据迭代,推动跨领域合作,促进重大科学突破。(图片由高欣授权提供)
以上内容为推广信息,所涉及内容不代表本网观点,不构成投资建议、消费建议。