Speaker
Wujun Shi
(S)
Description
硬X 射线自由电子激光装置(Shanghai HIgh repetition rate XFEL and Extreme light facility,简称SHINE)是国家重大科技基础设施建设“十三五”规划优先启动项目。SHINE装置提供0.4-25keV能量范围的光子,其脉冲具备超高峰值亮度和平均亮度(可达到第三代同步辐射的10^9倍)、高重复频率(设计重复频率可达到1MHz)、飞秒级超快脉冲(脉冲宽度<100fs)、强空间和时间相干性等优异特性,具备纳米级的超高空间分辨能力和飞秒级的超快时间分辨能力。
由于SHINE装置光子所具有的优异特性,可以实现对“活”的样品进行测量,也就是可以实现在样品损坏前进行成像(diffraction before destruction),因此对飞秒串行晶体学(Serial Femtosecond Crystallography)、单颗粒/单分子成像(single particle imaging)等实验带来了质的飞跃,将实验分辨率的精度提高到~nm的量级,同时对实验数据处理带来了前所未有的挑战。
对于样品损坏前进行成像的实验,需要做到对每一发脉冲都要进行成像,同时由于大型面阵探测器的使用,在装置运行初期,其数据产生通量可达到20GB/s@10kHz,随着探测器像素数量的增加以及激光脉冲频率的提高,其数据产生通量可以达到TB/s的数量级。该数据通量对传统的IT设备在数据采集、数据传输、数据存储和数据分析上都带来了前所未有的挑战。
为了实现将如此高通量的数据记录下来,需要对数据进行预处理,我们拟采用流水线方式对数据进行筛选与压缩,拟大规模采用FPGA进行数据预处理,将无意义的数据进行删除,最后将保留下来的数据进行压缩,写入快速存储中。以相干衍射实验为例:将样品通过注入器高速喷出,同时将激光脉冲对准样品流进行测量,由于探测激光脉冲对样品的命中率并不高,按照目前世界上已经有的经验来看,其可以将90%的数据筛选掉,从而可以极大的减小数据传输、数据存储以及后期数据处理的压力。
在本次报告中,将汇报SHINE数据采集、传输与存储所面临的挑战,以及应对策略。我们拟采用数据分级方式进行处理:(1)数据采集系统,主要由FPGA板卡组成,负责采集探测器上的数据;(2)数据筛选系统,主要由FPGA板卡组成,负责对数据进行预处理,比如刻度,然后按照给定的条件对数据进行筛选,将无科学意义的数据删除掉,保留有科学意义的数据,然后将有意义的数据进行无损压缩;(3)在线快速反馈系统,主要由高速存储和高性能计算集群机组成,负责将数据约简系统的数据存储下来,然后进行快速分析,得到粗粒度的结果;(4)离线数据分析系统,主要由海量存储和高性能计算集群机组成,负责对数据进行精细分析和离线重构,得到最终实验结果;(5)高速网络系统,主要采用基于TCP/IP的万兆网络进行系统间的传输,Infiniband网络用于服务器之间的高速数据交换。
Primary author
Wujun Shi
(S)
Co-authors
Haiwei Fan
(ShanghaiTech University)
Ping Huai
(ShanghaiTech University)