Conveners
科学数据存储与管理
- 正德 张 (中科院高能物理研究所)
高能所数据存储系统是一个庞大的分布式存储系统,旨在满足高能所各个领域的数据存储需求。这些领域包括粒子物理和天体物理、空间项目、多学科交叉(CSNS/HEPS)、理论物理和加速器设计等领域。为了支持这些需求,我们运行了多个分布式存储系统,其中包括主要的物理数据存储系统Lustre和EOS,以及通用文件系统、专用HPC集群、对象存储系统、内容分发文件系统和用户的云盘存储。目前,这些系统的总容量已超过100PB。
在过去的十多年里,Lustre和EOS作为高能所主要的物理数据存储系统,提供了100GB/s的数据访问带宽。为了适应变化的需求,我们引入了最新的磁带库管理软件CTA,已全面替代现有的Castor系统。我们还采用Restic作为数据备份系统,以实现对关键数据的高效备份。为了满足用户对HOME目录的需求,我们正在探索新的商业文件系统解决方案。为了满足公共云服务平台的存储需求,我们提...
Rucio是一个可由用户自定义策略以实现组织、管理和访问大规模科学数据功能的软件框架。整合来自不同存储技术和网络连接技术的数据成一个整体,Rucio可以管理分布式的、多存储类型的数据站点。相比于传统网格数据管理系统,Rucio提供了一些高级特性如:分布式数据恢复、自适应的数据复制以及高度量化、模块化和可扩展性的数据管理。Rucio最先在高能物理实验ATLAS上开发和应用,后来也逐渐应用在其他高能物理实验的科学数据管理中。
在使用网格框架分布式计算系统的国内高能物理实验中,JUNO、HERD、CEPC等实验都已经使用或有计划使用Rucio系统对实验数据进行管理。我们基于不同类型的实验对数据管理的不同需求,设计并开发不同的基于Rucio系统数据管理解决方案,实现了分布式数据统一命名、数据增删改查基础管理功能、多站点数据副本管理、原始数据分发管理、实验软件数据管理接口嵌入等功能或相关服务。
高能物理实验每年产生大量的数据,其中有些特别重要的数据,比如用户处理数据的作业脚本,数据分析后的结果和记录数据信息的mysql数据库等都需要定期进行备份,以避免发生软硬件故障时导致的损失。高能物理实验数据量的快速增长也意味着重要数据的数据量也越来越大,从之前的KB、MB到现在的GB、TB数据级。为了有效完成这些重要数据的备份和恢复,经过调研和对比,将开源备份软件Restic加入到高能所集群的备份系统中,用于解决TB级别的大容量文件目录的备份。基于Restic开发了策略初始化、定期备份、并行备份、镜像文件校验、日志采集、用户自主恢复数据等功能,有效地减少备份总时间和备份文件占用空间,提高了数据备份和恢复的效率。