1. IE browser is NOT supported anymore. Please use Chrome, Firefox or Edge instead.
2. If you are a new user, please register to get an IHEP SSO account through https://login.ihep.ac.cn/registlight.jsp Any questions, please email us at helpdesk@ihep.ac.cn or call 88236855.
3. If you need to create a conference in the "Conferences, Workshops and Events" zone, please email us at helpdesk@ihep.ac.cn.
4. The max file size allowed for upload is 100 Mb.
8–14 Jul 2023
青海宾馆
Asia/Shanghai timezone

基于集群的分布式计算平台

10 Jul 2023, 17:00
15m
二楼多功能厅

二楼多功能厅

分会报告 科学计算技术与平台 科学计算技术与平台

Speaker

UNKNOWN 郭超奇

Description

高能所计算集群长期为高能物理实验提供计算服务,拥有着大量的实验用户。随着实验规模的不断扩大以及用户量的增加,集群现有队列排队情况愈发严重。
为了解决本地集群资源紧张,排队久的情况,东莞大科学数据中心提供了18000个CPU核用于拓展高能所集群规模。考虑到高能所实验用户长期保持着使用集群提交计算作业的习惯,采用网格计算的方式很难在各个实验得以推广,因此本文设计并实现了基于集群的分布式计算。
该方式首先将异地站点资源加入到高能所集群资源池中,进行统一的作业调度。为了保证用户长期以来的使用集群提交作业的习惯,该方式会对提交到异地站点的作业脚本进行分析和处理,从而将用户作业中使用到的软件和数据等文件传输到异地站点的计算节点上,另外对脚本中使用到的路径进行相应的修改,从而保证作业的正确性。对用户而言,保证了之前提交作业的方式,用户无需进行任何修改即可将作业提交到远程站点执行。对平台而言,基于集群的分布式计算的模式便于拓展本地集群的规模,无论是异地站点、商业云等资源都可以通过这样的形式来拓展本地集群的规模。
目前,异地站点的资源已经纳入到高能所本地集群提供给BES、LHAASO、HERD等实验使用。

Primary authors

Presentation materials