Speaker
Dr
晓峰 张
(上海科技大学)
Description
上海硬X射线自由电子激光装置(英文缩写SHINE)是国家重大科技基础设施建设“十三五”规划的优先启动项目,拥有超高峰值亮度和平均亮度、高重复频率、飞秒级超快脉冲、优良的时间和空间相干等特性,同时具备纳米级的超高空间分辨能力和飞秒级的超快时间分辨能力。SHINE的建成将使我国拥有最新的高重频X射线自由电子激光光源,为物理、化学、材料、生命科学等学科领域提供高分辨成像、超快过程探索、先进结构解析等尖端手段,为我国基础科学的前沿研究带来前所未有的前景。
SHINE将采用高帧频大阵列多像素探测器系统,兼之具备单脉冲成像能力与高重频的特点,SHINE建成后将产生海量的实验数据。SHINE运行初期数据峰值通量将达到~100 GB/s,需要有~100 PB量级的数据存储能力;远期预计数据峰值通量将达到~5 TB/s,同时数据存储能力需要达到EB级别。如此巨大的数据量将给传统的数据分析方法带来严峻的挑战,而在大数据时代得到蓬勃发展的机器学习将会有独特的优势和潜力。正因为如此,在SHINE数据分析系统的规划之初,机器学习就受到了格外的重视。机器学习算法研究及其在SHINE实验数据处理中的应用将是一个重要的研究课题。
与同步辐射光源的光子累积模式不同的是,自由电子激光具有单脉冲成像能力。在实验中,高能量和高通量的X射线脉冲最终将摧毁样品的分子结构,但是飞秒级别的超快脉冲赋予了SHINE在摧毁前对分子结构进行成像的能力。鉴于自由电子激光中每个脉冲的性质都不一样,实验中需要尽可能地记录每一个脉冲的成像数据。另外,为了尽可能地减小数据通量,降低数据写入端的负担,我们希望能在线对成像进行快速甄别,及时剔除质量不好的成像。国外同类实验的研究结果表明,由于复杂多变的成像结果,以及高通量的图像产生率,传统在线分析方法的效果并不好。而卷积神经网络由于具备强大的学习能力和图像识别能力,在自由电子激光的实时图像识别中日益受到重视。
因此,国际上自由电子激光装置纷纷展开机器学习方面的研究。从发表的论文来看,研究多集中于在线实时反馈和实验参数的自动调节,以及利用卷积神经网络处理成像数据。
本报告将先对SHINE作简单的介绍,接下来介绍机器学习在SHINE数据系统建设中的考虑和规划,然后将重点报告近期的一项工作——卷积神经网络在X射线相干衍射实验实时图像识别中的应用。在X射线相干衍射实验中,样品依次通过X射线光路,X射线脉冲只有一定的几率能击中样品并成像。该项工作的目的即开发一个卷积神经网络,使之能够尽可能准确地在线快速甄别出样品未被击中的成像数据。由于SHINE目前还处于建设阶段,并没有相应的实验数据,本项工作将利用国际上同类自由电子激光装置公开发表的实验数据来对网络进行训练和测试。
Primary author
Dr
晓峰 张
(上海科技大学)
Co-author
Dr
平 怀
(上海科技大学)