Conveners
科学计算技术与平台
- 林平 武 ()
科学计算技术与平台
- 海波 李 (高能所)
随着容器应用范围越来越广泛普遍,成为高能物理实验中不可缺少的一部分,随之对容器镜像的管理要求越来越高,安全也更加严格。本文主要介绍实现高能物理容器镜像管理的方法、架构、安全以及典型的应用场景等。
高能所计算集群长期为高能物理实验提供计算服务,拥有着大量的实验用户。随着实验规模的不断扩大以及用户量的增加,集群现有队列排队情况愈发严重。
为了解决本地集群资源紧张,排队久的情况,东莞大科学数据中心提供了18000个CPU核用于拓展高能所集群规模。考虑到高能所实验用户长期保持着使用集群提交计算作业的习惯,采用网格计算的方式很难在各个实验得以推广,因此本文设计并实现了基于集群的分布式计算。
...
格点QCD是在粒子物理“标准模型”理论框架下,研究强相互作用力的一种第一性计算的非微扰方法,也是在低能标度下唯一有效的数值模拟方法。格点QCD将闵可夫斯基时空上的量子场论问题转变为欧几里得时空上的统计问题,将时间和空间等同对待,将四维时空切分为有限的四维晶格。格点QCD计算应用中的热点模块集中于循环边界条件的四维超立方格子中的一个稀疏线性系统求解。该线性系统表现为四维八点的协变差分运算,即在任意点上,是该点以及与之相邻的8个点到该点的9个$12\times12$稠密复数矩阵计算。
本文介绍了一种基于结构网格数据结构的矢量化方案。在格点QCD计算过程中,涉及大量、同构、小型复矩阵的计算:大量是指要遍历所有网格点;同构是指每个网格点的数据结构和计算是相同的;小型复矩阵具体到格点QCD则为SU(3)矩阵。在这些计算中有的矢量化难以实现或效果较差,有的则是对较宽的矢量单元难以适用。...
大数据和云计算技术的发展,使得“存-算分离”的计算模式广泛应用于大型数据中心。在计算节点和存储节点间频繁的数据搬运,占用了大量的访存带宽和网络带宽。当计算作业达到一定规模时,会遇到“内存墙”问题,以及各种网络问题、文件系统故障等,使整个计算系统处于不稳定状态。另外,由于存储器的访问速度低于处理器的运算速度,在访存带宽或网络带宽达到上限后,增加运算部件无法继续提升处理能力。本文基于ARM CPU和FPGA异构计算架构,设计并实现了可计算存储系统。利用FPGA可定制性强、并行度高的特点,将部分计算密集型任务和I/O密集型任务卸载到存储节点本地。通过本地的加速计算,缓解了节点间的数据搬运造成的I/O瓶颈和网络拥塞问题,提升了计算效率,增强了系统稳定性,同时降低了整体功耗。
像高海拔宇宙线观测站(LHAASO)、江门中微子实验(JUNO)的大型科学实验为了观测宇宙线或中微子等物理对象,以及伽马射电暴或超新星爆发等物理现象需要系统不间断运行。为了保障实验的长期稳定运行,需要在系统出现故障的时候,实验运行人员快速分析故障原因,修复故障并恢复实验运行。这些大型科学实验一般由数量庞大的探测器及电子学系统、复杂的交换机网络、多达百台计算集群组成的数据获取系统、离线存储系统组成。为了快速检测故障并对故障原因进行分析,设计了大型科学实验运行故障诊断系统。该系统通过收集来自探测器、电子学、数据获取系统的运行状态信息,实时检测链路状态,在发生故障时检测并快速分析故障原因,并及时提供给实验运行人员。此外,还可以按需分析指定时间段的历史数据,生成数据报表。
该系统的设计要求包含高吞吐、实时性、拓展性和可靠性。为了满足这些要求,该系统采用了分布式架构,将数据收集、数据处理、数...
引力波暴高能电磁对应体全天监测器(Gravitational wave high-energy Electromagnetic Counterpart All-sky Monitor,GECAM)卫星是专门针对引力波伽马暴(即引力波高能电磁对应体)的研究机遇而提出的,通过双星在地球两侧共轭星座布局,在轨监测引力波伽马暴等高能辐射现象,破解宇宙中致密天体剧烈并合之谜。同时探测快速射电暴、特殊伽马暴(超长暴、软暴)、磁星爆发、以及太阳耀斑和地球伽马闪等空间高能辐射现象,进一步理解它们的爆发机制。 GECAM卫星是我国首颗能够快速下传及发布天文警报的卫星,已经开始发布科学数据。本报告介绍GECAM卫星科学数据发布和人工智能技术在警报信息提取中的应用。