Conveners
先进光源数据与软件
- 功发 刘 (高能所)
先进光源数据与软件
- 春鹏 王 (中国科学院上海高等研究院)
先进光源数据与软件
- 留国 陈 (中国科学技术大学)
The rapid development of X-ray free electron laser (EFEL) facilities has opened a new paradigm of X-ray measurement. They can deliver ultra-short and coherent x-ray pulses with extremely high brilliance, thus enabling the observation of the physical and chemical behaviors in condensed matters and biomaterials, at high spatial and temporal resolution simultaneously. Shanghai HIgh repetitioN...
高能同步辐射光源(High Energy Photon Source,HEPS)是国内建设的首个第四代同步辐射光源,为我国材料科学、化学工程、能源环境、生物医学等众多领域提供了先进的实验平台。一期建设的十五条线站在运行期间预计每天总共会产生200TB至500TB的原始数据。HEPS所产生的数据具有数据量大、通量高、结构复杂等特点。因此,为了高效地利用数据,需要对这些海量数据从数据获取、存储、传输、利用到共享的全生命周期过程进行跟踪和管理。本文将着重介绍当前HEPS数据管理的关键技术实现以及相关进展,并讨论后续的发展方向。
1 引言
随着云计算、大数据、移动网络等信息技术的飞速发展和广泛应用,科研和管理信息化程度不断加深,充分借助信息技术,尤其是数字网络技术对档案内容信息以及相关衍生信息资源进行有效的组织、管理、存储和利用,已经成为新时期档案工作突破传统、创新发展的必经之路。2021年起正式实施的《中华人民共和国档案法》,明确要求推动档案信息化建设,开辟档案管理现代化新路径。同时,肯定了电子档案的效力与凭证价值,对电子档案管理信息系统、数字档案馆、档案信息资源共享服务平台建设提出了更高要求。
硬X射线自由电子激光(Shanghai HIgh repetitioN rate XFEL and Extreme light...
新一代同步辐射光源装置在X射线亮度与相干性、光学元件与探测器效率上获得了极大提升,所开展的成像实验向跨尺度、多模态、高通量与原位动态化表征模式转变,实验数据的年底通量将正式步入“Exascale”时代,对实验控制、数据采集、在线重建和特征分割等方面的软件技术与算法需求发生了革命性的变化。在建的北京同步辐射(HEPS)光束线软件团队在高通量多模态成像实验数据采集与分析中结合了大型软件框架、大数据技术、AI工作流等方法的优势,以应对未来光源实验海量数据带来的挑战。
通过机器学习理解X 射线吸收谱:实验结果到理论计算的自动匹配
王可心,卢项尉,王天阳,陈留国,刘功发, 陈凯*
中国科学技术大学国家同步辐射实验室
Email: kaichen2021@ustc.edu.cn
过去十年,材料信息学显著加快了新材料性能的发现和分析。加速相关材料发现的关键因素之一是高通量实验中的动态数据分析,引发了对材料特性快速而准确的自动估计的需求。X 射线吸收光谱 (XAS) 是一种广泛使用的材料表征技术,用于确定氧化态、配位环境和其他局部原子结构信息。XAS 分析依赖于测量光谱与可靠参考光谱的比较。然而,现有的 XAS...
作为我国第四代同步辐射光源装置高能同步辐射光源(High Energy Photon Source HEPS) 开展的实验将向高 数据通量 、 多模态 、 超快频率 、 跨尺度形式转变 所产生的年数据通量预计将迈入 「 Exascale 」 时代 。 另外 复杂多样的数据实验导致不同线站数据产生速率差异较大 。 面对如此高通量 、 容量
多样化的实验数据 数据处理软件需要能够调用可伸缩的分布式异构计算资源 提供不同规模的计算分析服务 。
上海光源是中国大陆第一台中能第三代同步辐射光源,目前共有27条光束线39个实验站投入运行,至2025年将有35条光束线约50个实验站投入运行,已接待学界、产业界用户超过3.5万人。国家“十二五”重大科学基础设施建设项目上海光源线站工程配套建设的用户数据中心可提供超过20PB的统一存储空间,提供超900Tfloops的多节点CPU/GPU混合集群算力支持。上海光源同步辐射科学数据管理分析系统依托上海光源用户数据中心基础设施,从全装置层面布局核心数据库系统设计研发、高通量数据快速分析系统研发、数据自动处理流水线研发,以实现海量实验数据的全生命周期高效组织管理、高通量数据在线处理以及计算资源的高效利用,为上海光源用户提供“一站式”的数据服务,实现科学数据的长期价值与战略价值,加速装置和用户的科学产出。
随着第四代同步辐射光源的出现,以及高分辨探测器的发展,科学数据无论是在容量还是通量上都出现了数量级的增长。先进的数据处理和分析方法需要从底层技术进行革新,跟上数据增长的速度,并提供实时的快反馈和实验指导能力。同时随着新型先进实验方法的不断涌现,方法学算法及软件的发展需要底层软件框架的支持。为满足新一代光源实验的需求,HEPS计算与通信系统开发了面向先进光源实验的数据处理软件框架Daisy。本次报告将介绍Daisy项目的设计理念、开发进展及未来发展计划。
北京在建的同步辐射光源装置预计每天产生数百TB的数据量,每年的数据量达到PB量级,对IO、存储和科学计算带来极大压力。实验过程中需要在线处理用于快速判断数据采集质量,目前从磁盘读取海量实验数据读取存在严重的IO瓶颈,因此HEPS亟需稳定高效的IO方法克服以上困难,首先分析光源下计算任务的读取模式,结合HDF5分块存储特性,减少数据跳读,结合并行异步策略加速读写,减少IO在计算过程中的占比;其次通过压缩的方式减少数据体积,为保证数据完整性,压缩采用无损的方式,引入压缩会带来额外的时间和资源消耗,而不同的数据压缩效果也有所不同,所以,以加速整个科学计算为目标,综合评价引入压缩的提升,自动触发压缩过程及压缩方法。因此本文拟通过以上方法优化HDF5在HEPS科学计算过程中的IO速度,加速科学结果产出。未来以流处理的方式可以规避海量数据落盘再读取导致的IO瓶颈问题,因此最后本文首先介绍了未来H...
随着计算机技术、卫星导航技术的迅速发展,通过卫星传感器产生的数据已经达到TB级甚至PB级。目前,高能所参与了多颗天文卫星的研制和建设,包括硬X射线调制望远镜(Hard X-ray Modulation Telescope,HXMT)、引力波暴高能电磁对应体全天监测器卫星(Gravitational wave high-energy Electromagnetic Counterpart All-sky Monitor,GECAM)、增强型X射线时变与偏振空间天文台(enhanced X-ray Timing and Polarimetry...