1. IE browser is NOT supported anymore. Please use Chrome, Firefox or Edge instead.
2. If you are a new user, please register to get an IHEP SSO account through https://login.ihep.ac.cn/registlight.jsp Any questions, please email us at helpdesk@ihep.ac.cn or call 88236855.
3. If you need to create a conference in the "Conferences, Workshops and Events" zone, please email us at helpdesk@ihep.ac.cn.
4. The max file size allowed for upload is 100 Mb.

面向大型粒子加速器的AI-Ready数据集生成平台的设计与实现

25 Aug 2025, 17:20
20m
7号会议室 (国信南山温泉酒店)

7号会议室

国信南山温泉酒店

人工智能与应用 人工智能与应用

Speaker

伟 鲍

Description

随着人工智能技术在科学装置领域的深入应用,如何高效实现大型粒子加速器的智能调节、智能故障诊断及预测性维护,正在成为研究热点。但是在实际应用中,算法与数据之间存在不容忽视的挑战:加速器系统数据普遍存在异构性强、多模态耦合、时序特征复杂、因存储分散导致的数据孤岛效应、以及数据协议与标准的缺失,成为智能算法模型有效部署与迭代的核心障碍。
针对上述挑战,本文面向高能同步辐射光源(HEPS)和中国散裂中子源(CSNS),设计并实现了一个遵循FAIR原则的AI-Ready数据集生成平台——FARAD。该平台采用任务驱动的微服务架构,集成了数据清洗、多源时序对齐、特征工程及融合等核心功能模块,打通加速器数据从原始采集到算法训练的全链路流程。本平台基于 MongoDB 与 Kafka 构建高效的数据采集与存储体系,结合 Pandas 与 NumPy 实现数据清洗与特征工程。在数据融合方面,系统通过 RESTful API 打通异构系统,结合统一数据模型、元数据驱动和语义对齐,提升多模态数据集成效率,支持标准化与血缘追踪。平台采用 Docker 容器化部署,具备模块解耦与协议兼容能力,支持弹性扩缩容和快速迭代,能够适配 HEPS、CSNS 等加速器装置及主流 AI 框架,具备良好的扩展性与持续演进能力。FARAD从根源上提升了数据质量与可用性,降低人工智能模型在加速器场景中的应用门槛。

Primary authors

伟 鲍 晓含(Xiaohan) 卢 (Lu) (高能所) Sinong Cheng (Institute of High Energy Physics) Yi Jiao (高能所) Yongcheng He (高能所) Weiling 黄蔚玲 (高能所) Yuliang Zhang (Institute of High Energy Physics)

Presentation materials

There are no materials yet.