Conveners
科学计算技术与平台
- 林平 武 ()
科学计算技术与平台
- 海波 李 (高能所)
随着容器应用范围越来越广泛普遍,成为高能物理实验中不可缺少的一部分,随之对容器镜像的管理要求越来越高,安全也更加严格。本文主要介绍实现高能物理容器镜像管理的方法、架构、安全以及典型的应用场景等。
高能所计算集群长期为高能物理实验提供计算服务,拥有着大量的实验用户。随着实验规模的不断扩大以及用户量的增加,集群现有队列排队情况愈发严重。
为了解决本地集群资源紧张,排队久的情况,东莞大科学数据中心提供了18000个CPU核用于拓展高能所集群规模。考虑到高能所实验用户长期保持着使用集群提交计算作业的习惯,采用网格计算的方式很难在各个实验得以推广,因此本文设计并实现了基于集群的分布式计算。
...
格点QCD是在粒子物理“标准模型”理论框架下,研究强相互作用力的一种第一性计算的非微扰方法,也是在低能标度下唯一有效的数值模拟方法。格点QCD将闵可夫斯基时空上的量子场论问题转变为欧几里得时空上的统计问题,将时间和空间等同对待,将四维时空切分为有限的四维晶格。格点QCD计算应用中的热点模块集中于循环边界条件的四维超立方格子中的一个稀疏线性系统求解。该线性系统表现为四维八点的协变差分运算,即在任意点上,是该点以及与之相邻的8个点到该点的9个$12\times12$稠密复数矩阵计算。
本文介绍了一种基于结构网格数据结构的矢量化方案。在格点QCD计算过程中,涉及大量、同构、小型复矩阵的计算:大量是指要遍历所有网格点;同构是指每个网格点的数据结构和计算是相同的;小型复矩阵具体到格点QCD则为SU(3)矩阵。在这些计算中有的矢量化难以实现或效果较差,有的则是对较宽的矢量单元难以适用。...
像高海拔宇宙线观测站(LHAASO)、江门中微子实验(JUNO)的大型科学实验为了观测宇宙线或中微子等物理对象,以及伽马射电暴或超新星爆发等物理现象需要系统不间断运行。为了保障实验的长期稳定运行,需要在系统出现故障的时候,实验运行人员快速分析故障原因,修复故障并恢复实验运行。这些大型科学实验一般由数量庞大的探测器及电子学系统、复杂的交换机网络、多达百台计算集群组成的数据获取系统、离线存储系统组成。为了快速检测故障并对故障原因进行分析,设计了大型科学实验运行故障诊断系统。该系统通过收集来自探测器、电子学、数据获取系统的运行状态信息,实时检测链路状态,在发生故障时检测并快速分析故障原因,并及时提供给实验运行人员。此外,还可以按需分析指定时间段的历史数据,生成数据报表。
该系统的设计要求包含高吞吐、实时性、拓展性和可靠性。为了满足这些要求,该系统采用了分布式架构,将数据收集、数据处理、数...