Speaker
Mr
晓巍 姜
(高能所)
Description
当前,高能物理领域的生产环境中,计算任务多以单核串行作业为主,具有高吞吐的特点。同时,由于计算任务重、资源需求大、用户习惯不同,而计算资源相对隔离,在资源管理与调度中,需要充分考虑公平调度与规范管理。
因此,近年,HTCondor批处理系统在高能物理计算领域较为流行,HTCondor最主要的特点是处理高吞吐量的资源调度,同时支持大规模的计算调度,并且有较高的灵活性和扩展性,能够很好的满足高能物理计算任务需求。
但是,HTCondor提供给用户的自由度过高,不易于调度控制和管理;同时,作业提交等操作的过程相对繁琐,当用户群较复杂时,不易于规范统一操作模式,导致用户体验下降;此外,HTCondor本身不提供用户管理功能,需要额外的用户管理系统与接口来补充。
鉴于以上原因,本文提出并实现一种面向高能物理任务调度的前端管理方案。
该方案由中央管理系统、作业操作工具集、调度控制器三部分组成。其中,中央管理系统实现用户、用户组、实验组、资源组管理等,由各客户端自动获取相关信息并发布至作业操作端;作业操作工具集采用简化规范的命令行方式,实现规范统一的作业操作,并能友好的支持其他批处理系统;调度控制器实现作业控制、分组控制、资源池控制等,并能有效的处理多队列的负载均衡问题。
本文提出的方案有效的解决了HTCondor批处理系统实际生产中的作业操作繁琐、调度控制困难、用户管理缺失等问题。
Primary author
Mr
晓巍 姜
(高能所)
Co-authors
Ms
Hongnan Tan
(高能所)
Dr
Jiaheng Zou
(高能所)
Ms
Jingyan SHI Jingyan
(高能所)
Ms
Ran Du
(高能所)
Mr
Zhenyu Sun
(高能所)