1. IE browser is NOT supported anymore. Please use Chrome, Firefox or Edge instead.
2. If you are a new user, please register to get an IHEP SSO account through https://login.ihep.ac.cn/registlight.jsp Any questions, please email us at helpdesk@ihep.ac.cn or call 88236855.
3. If you need to create a conference in the "Conferences, Workshops and Events" zone, please email us at helpdesk@ihep.ac.cn.
4. The max file size allowed for upload is 100 Mb.
26 June 2024 to 2 July 2024
青海宾馆
Asia/Shanghai timezone

JUNO数据获取系统高可用在线软件设计与研制

29 Jun 2024, 15:15
15m
二楼多功能厅

二楼多功能厅

Speaker

Dr UNKNOWN 于泽众

Description

江门中微子实验(Jiangmen Underground Neutrino Observatory,JUNO)位于阳江核电站和台山核站的中垂线上,实验使用的中心探测器位于地下700米,内部装有2万吨的液体闪烁体,能量精度到达3%。JUNO将通过实验获得的数据确定中微子质量顺序和中微子混合参数,并在其它交叉领域展开研究,为研究超出标准模型的物理学提供了机会。探测超新星中微子事件是JUNO实验的物理目标之一,由于超新星中微子事件30~40年才会发生一次,超新星中微子事件到来时数据获取(Data Acquisition,DAQ)系统在线软件稳定运行对获取超新星中微子数据十分重要,这对JUNO在线软件的可用性提出了较高要求。
在线软件要为JUNO DAQ系统提供重要功能支撑和公共软件库,如在线软件、文件系统、监控系统等,在线软件又可以分为配置管理、进程管理、运行控制和信息共享等功能。在线软件所有功能的设计和实现都要考虑软件可用性,降低不可用时间,为实验探测超新星中微子提供保障。本论文通过对高可用系统设计方法的研究,实现了微服务架构的在线软件,利用消息中间件和分布式协调服务隔离了JUNO DAQ系统中的数据流软件和在线软件,消除了在线软件异常对数据流软件的影响,完成了在线软件核心服务的开发和可用性研究。针对在线软件的基础设施软件,本论文完成了文件系统和监控系统的调研,通过高可用系统中常用设计方法完成了基础设施软件的高可用部署。完成在线软件的设计和部署后,本论文通过对JUNO在线软件建模,完成了对系统可用性的分析并给出了系统可用性指标,计算表明JUNO在线软件可以容忍每年41次故障,能够为JUNO获取实验数据提供有力支持。
本论文还对在线软件的功能进行了测试,测试结果表明监控系统能够完成对DAQ系统中基础设施软件、数据流软件和计算节点的全面监控,文件系统可以为DAQ用户提供文件的管理和存储。在线软件中的进程管理功能可以在20秒左右对数据流软件完成启动和停止控制;运行控制功能可以在12毫秒左右将命令信息分发给所有数据流进程;配置管理功能可以管理配置历史,在78毫秒左右将配置信息分发给所有数据流进程;消息报告服务可以处理数据流软件在百台节点产生的运行消息。
最后,为向数据流软件提供可选的高可用方案,本论文研究了高可用数据传递框架的性能和容错能力,测试结果表明,在单节点带宽25 Gb/s的集群中,基于发布订阅模型的高可用数据传递框架可以实现单节点23 Gb/s的数据吞吐,在单节点发生故障时可以保证数据流持续运行。
在线软件核心服务目前已经在JUNO实验现场部署,联合数据流软件完成了功能和可用性测试,为JUNO未来正式取数运行做出了重要铺垫。

Primary author

Presentation materials

There are no materials yet.