Speaker
Dr
京燕 石
(中科院高能所)
Description
HTCondor批作业管理开源软件对于高通量作业提供了高性能的作业调度功能,被越来越广泛应用于高能物理离线处理领域。但与大多数批作业管理软件不同,HTCondor并不提供中心化集群管理模式,我们开发了基于HTCondor的自动化管理工具(MAT),用于资源的自动化统一管理与故障实时监视与修复。
在MAT中,中心数据库用于存储计算资源的多种属性。集群中每个计算结点的配置文件被MAT按中心数据库的信息设置修改。所有计算结点都在MAT的监控之中,一旦发现问题,会被实时监测并反馈给中心数据库,进而相关错误将从计算集群中被快速剔除。
Primary author
Dr
京燕 石
(中科院高能所)