Speaker
Hangchang 航畅 Zhang 张
(IHEP,中国科学院高能物理研究所)
Description
像高海拔宇宙线观测站(LHAASO)、江门中微子实验(JUNO)的大型科学实验为了观测宇宙线或中微子等物理对象,以及伽马射电暴或超新星爆发等物理现象需要系统不间断运行。为了保障实验的长期稳定运行,需要在系统出现故障的时候,实验运行人员快速分析故障原因,修复故障并恢复实验运行。这些大型科学实验一般由数量庞大的探测器及电子学系统、复杂的交换机网络、多达百台计算集群组成的数据获取系统、离线存储系统组成。为了快速检测故障并对故障原因进行分析,设计了大型科学实验运行故障诊断系统。该系统通过收集来自探测器、电子学、数据获取系统的运行状态信息,实时检测链路状态,在发生故障时检测并快速分析故障原因,并及时提供给实验运行人员。此外,还可以按需分析指定时间段的历史数据,生成数据报表。
该系统的设计要求包含高吞吐、实时性、拓展性和可靠性。为了满足这些要求,该系统采用了分布式架构,将数据收集、数据处理、数据存储和数据展示等功能分别部署在不同的节点上。该系统使用消息数据流平台 Redpanda 作为消息中间件,使用高性能分布式数据库Cassandra 作为存储仓库,通过流处理将来自实验系统的海量数据压缩并实时保存至仓库,通过批处理分析数据并利用自动化手段自动运行给出故障原因。该系统构建了一个科学物理实验故障的因果树,来提高故障诊断的准确性和效率。
目前已完成该系统的技术验证和原型实现,并在 LHAASO 中得到了应用。该系统可以快速、准确地诊断运行故障,为实验运行人员提供有效的解决方案,提高实验的稳定性和效率,为科学研究提供有力的支持。
通讯作者:张航畅,高能物理研究所,15938638566,zhanghc@ihe
Primary authors
Hangchang 航畅 Zhang 张
(IHEP,中国科学院高能物理研究所)
minhao 顾旻皓
(高能所)