Speaker
UNKNOWN 郭
(高能所)
Description
高能所计算集群长期为高能物理实验提供计算服务,拥有着大量的实验用户。随着实验规模的不断扩大以及用户量的增加,集群现有队列排队情况愈发严重。
为了解决本地集群资源紧张,排队久的情况,东莞大科学数据中心提供了18000个CPU核用于拓展高能所集群规模。考虑到高能所实验用户长期保持着使用集群提交计算作业的习惯,采用网格计算的方式很难在各个实验得以推广,因此本文设计并实现了基于集群的分布式计算。
该方式首先将异地站点资源加入到高能所集群资源池中,进行统一的作业调度。为了保证用户长期以来的使用集群提交作业的习惯,该方式会对提交到异地站点的作业脚本进行分析和处理,从而将用户作业中使用到的软件和数据等文件传输到异地站点的计算节点上,另外对脚本中使用到的路径进行相应的修改,从而保证作业的正确性。对用户而言,保证了之前提交作业的方式,用户无需进行任何修改即可将作业提交到远程站点执行。对平台而言,基于集群的分布式计算的模式便于拓展本地集群的规模,无论是异地站点、商业云等资源都可以通过这样的形式来拓展本地集群的规模。
目前,异地站点的资源已经纳入到高能所本地集群提供给BES、LHAASO、HERD等实验使用。