Conveners
科学数据存储与管理
- 海波 李 (高能所)
现代高能物理研究依托于大规模、异构的计算与存储基础设施,其数据分析流程的复杂性对用户交互的便捷性和协同工作的效率提出了前所未有的挑战。高能物理研究所的计算平台是一个集成了HTCondor、Slurm等多种作业调度系统以及LUSTRE、EOS、CVMFS等异构存储资源的典型大规模科研计算环境。传统基于命令行的交互模式在新一代科研人员面前日益显得低效与不便。ink-Interactive ANalysis...
科学数据的管理正从单纯的数据存储与共享,向确保研究过程和结果的可追溯性(provenance)和可重复性(reproducibility)演进。FAIR原则[1](可发现、可访问、可互操作、可重用)为这一目标提供了指导框架。然而,正如FAIR4RS[2]所强调的,将这些原则应用于“研究软件”比应用于静态数据更具挑战性,因为软件是动态的、可执行的,并且其行为高度依赖于其运行环境。
在复杂大科学工程磁约束聚变研究中,由多个物理模拟程序耦合的集成建模是探索复杂聚变发生过程的核心。...
随着同步辐射光源实验规模的持续扩大,实验产生的数据量迎来急剧的增长,导致数据分析过程中数据读取瓶颈问题日益凸显,严重影响了科学计算的整体性能和效率。针对该问题,设计实现三级优化方法:首先,设计实现了通用化数据IO抽象层,屏蔽底层数据源与格式差异,集成了并行异步等优化方法,并向应用提供了统一易用的数据访问接口;其次,设计实现了数据流服务平台,构建了分布式内存缓存池,打通探测器至计算节点的直连通道,规避传统落盘再读导致的I/O瓶颈;最后,为进一步优化数据流传输效率,实现了领域定制的序列化引擎,设计了专用二进制编解码方法,显著提升数据流通效率。本方法可有效加速科学计算,具备为前沿科研提供高速数据供给的能力。