1. IE browser is NOT supported anymore. Please use Chrome, Firefox or Edge instead.
2. If you are a new user, please register to get an IHEP SSO account through https://login.ihep.ac.cn/registlight.jsp Any questions, please email us at helpdesk@ihep.ac.cn or call 88236855.
3. If you need to create a conference in the "Conferences, Workshops and Events" zone, please email us at helpdesk@ihep.ac.cn.
4. The max file size allowed for upload is 100 Mb.
15–19 Jul 2019
遵义世纪柏源酒店
Asia/Shanghai timezone

基于HTCondor的集群自动化管理与监控工具的设计与开发

17 Jul 2019, 16:10
20m
遵义厅 (遵义世纪柏源酒店)

遵义厅

遵义世纪柏源酒店

科学计算技术与平台 科学计算与数据管理II

Speaker

Dr 京燕 石 (中科院高能所)

Description

HTCondor批作业管理开源软件对于高通量作业提供了高性能的作业调度功能,被越来越广泛应用于高能物理离线处理领域。但与大多数批作业管理软件不同,HTCondor并不提供中心化集群管理模式,我们开发了基于HTCondor的自动化管理工具(MAT),用于资源的自动化统一管理与故障实时监视与修复。 在MAT中,中心数据库用于存储计算资源的多种属性。集群中每个计算结点的配置文件被MAT按中心数据库的信息设置修改。所有计算结点都在MAT的监控之中,一旦发现问题,会被实时监测并反馈给中心数据库,进而相关错误将从计算集群中被快速剔除。

Primary author

Dr 京燕 石 (中科院高能所)

Co-authors

Dr 佳恒 邹 (中科院高能所) Mr 庆宝 胡 (中科院高能所) Mr 晓巍 姜 (中科院高能所)

Presentation materials

There are no materials yet.