第二十一届全国科学计算与信息化会议暨第十二届科研信息化联盟会议

Name: 第二十一届全国科学计算与信息化会议暨第十二届科研信息化联盟会议
Start: 2025-08-24T09:00:00+08:00
End: 2025-08-30T18:00:00+08:00
Location: 长春

24–30 Aug 2025

长春

Asia/Shanghai timezone

会务组联系方式

面向大型粒子加速器的AI-Ready数据集生成平台的设计与实现

25 Aug 2025, 17:20

20m

7号会议室 (国信南山温泉酒店)

7号会议室

国信南山温泉酒店

人工智能与应用人工智能与应用

伟鲍

随着人工智能技术在科学装置领域的深入应用，如何高效实现大型粒子加速器的智能调节、智能故障诊断及预测性维护，正在成为研究热点。但是在实际应用中，算法与数据之间存在不容忽视的挑战：加速器系统数据普遍存在异构性强、多模态耦合、时序特征复杂、因存储分散导致的数据孤岛效应、以及数据协议与标准的缺失，成为智能算法模型有效部署与迭代的核心障碍。
针对上述挑战，本文面向高能同步辐射光源（HEPS）和中国散裂中子源（CSNS），设计并实现了一个遵循FAIR原则的AI-Ready数据集生成平台——FARAD。该平台采用任务驱动的微服务架构，集成了数据清洗、多源时序对齐、特征工程及融合等核心功能模块，打通加速器数据从原始采集到算法训练的全链路流程。本平台基于 MongoDB 与 Kafka 构建高效的数据采集与存储体系，结合 Pandas 与 NumPy 实现数据清洗与特征工程。在数据融合方面，系统通过 RESTful API 打通异构系统，结合统一数据模型、元数据驱动和语义对齐，提升多模态数据集成效率，支持标准化与血缘追踪。平台采用 Docker 容器化部署，具备模块解耦与协议兼容能力，支持弹性扩缩容和快速迭代，能够适配 HEPS、CSNS 等加速器装置及主流 AI 框架，具备良好的扩展性与持续演进能力。FARAD从根源上提升了数据质量与可用性，降低人工智能模型在加速器场景中的应用门槛。

伟鲍晓含（Xiaohan）卢 (Lu) (高能所) Sinong Cheng (Institute of High Energy Physics) Yi Jiao (高能所) Yongcheng He (高能所) Weiling 黄蔚玲 (高能所) Yuliang Zhang (Institute of High Energy Physics)

There are no materials yet.

第二十一届全国科学计算与信息化会议暨第十二届科研信息化联盟会议

会务组联系方式

面向大型粒子加速器的AI-Ready数据集生成平台的设计与实现

7号会议室

国信南山温泉酒店

Speaker

Description

Primary authors

Presentation materials