1. IE browser is NOT supported anymore. Please use Chrome, Firefox or Edge instead.
2. If you are a new user, please register to get an IHEP SSO account through https://login.ihep.ac.cn/registlight.jsp Any questions, please email us at helpdesk@ihep.ac.cn or call 88236855.
3. If you need to create a conference in the "Conferences, Workshops and Events" zone, please email us at helpdesk@ihep.ac.cn.
4. The max file size allowed for upload is 100 Mb.
26 June 2024 to 2 July 2024
青海宾馆
Asia/Shanghai timezone

大型科学实验运行故障诊断系统设计及技术研究

30 Jun 2024, 16:30
15m
一楼迎宾厅

一楼迎宾厅

Speaker

Hangchang 航畅 Zhang 张 (IHEP,中国科学院高能物理研究所)

Description

像高海拔宇宙线观测站(LHAASO)、江门中微子实验(JUNO)的大型科学实验为了观测宇宙线或中微子等物理对象,以及伽马射电暴或超新星爆发等物理现象需要系统不间断运行。为了保障实验的长期稳定运行,需要在系统出现故障的时候,实验运行人员快速分析故障原因,修复故障并恢复实验运行。这些大型科学实验一般由数量庞大的探测器及电子学系统、复杂的交换机网络、多达百台计算集群组成的数据获取系统、离线存储系统组成。为了快速检测故障并对故障原因进行分析,设计了大型科学实验运行故障诊断系统。该系统通过收集来自探测器、电子学、数据获取系统的运行状态信息,实时检测链路状态,在发生故障时检测并快速分析故障原因,并及时提供给实验运行人员。此外,还可以按需分析指定时间段的历史数据,生成数据报表。
该系统的设计要求包含高吞吐、实时性、拓展性和可靠性。为了满足这些要求,该系统采用了分布式架构,将数据收集、数据处理、数据存储和数据展示等功能分别部署在不同的节点上。该系统使用消息数据流平台 Redpanda 作为消息中间件,使用高性能分布式数据库Cassandra 作为存储仓库,通过流处理将来自实验系统的海量数据压缩并实时保存至仓库,通过批处理分析数据并利用自动化手段自动运行给出故障原因。该系统构建了一个科学物理实验故障的因果树,来提高故障诊断的准确性和效率。
目前已完成该系统的技术验证和原型实现,并在 LHAASO 中得到了应用。该系统可以快速、准确地诊断运行故障,为实验运行人员提供有效的解决方案,提高实验的稳定性和效率,为科学研究提供有力的支持。
通讯作者:张航畅,高能物理研究所,15938638566,zhanghc@ihe

Primary authors

Hangchang 航畅 Zhang 张 (IHEP,中国科学院高能物理研究所) minhao 顾旻皓 (高能所)

Presentation materials