1. IE browser is NOT supported anymore. Please use Chrome, Firefox or Edge instead.
2. If you are a new user, please register to get an IHEP SSO account through https://login.ihep.ac.cn/registlight.jsp Any questions, please email us at helpdesk@ihep.ac.cn or call 88236855.
3. If you need to create a conference in the "Conferences, Workshops and Events" zone, please email us at helpdesk@ihep.ac.cn.
4. The max file size allowed for upload is 100 Mb.
3–7 Jul 2017
威海学术中心
Asia/Shanghai timezone

一种面向高能物理计算任务调度的前端管理与实现

4 Jul 2017, 17:00
20m
读星厅 (威海学术中心)

读星厅

威海学术中心

山东威海
分会报告 分布式计算技术与系统 分布式计算与云计算I

Speaker

Mr 晓巍 姜 (高能所)

Description

当前,高能物理领域的生产环境中,计算任务多以单核串行作业为主,具有高吞吐的特点。同时,由于计算任务重、资源需求大、用户习惯不同,而计算资源相对隔离,在资源管理与调度中,需要充分考虑公平调度与规范管理。 因此,近年,HTCondor批处理系统在高能物理计算领域较为流行,HTCondor最主要的特点是处理高吞吐量的资源调度,同时支持大规模的计算调度,并且有较高的灵活性和扩展性,能够很好的满足高能物理计算任务需求。 但是,HTCondor提供给用户的自由度过高,不易于调度控制和管理;同时,作业提交等操作的过程相对繁琐,当用户群较复杂时,不易于规范统一操作模式,导致用户体验下降;此外,HTCondor本身不提供用户管理功能,需要额外的用户管理系统与接口来补充。 鉴于以上原因,本文提出并实现一种面向高能物理任务调度的前端管理方案。 该方案由中央管理系统、作业操作工具集、调度控制器三部分组成。其中,中央管理系统实现用户、用户组、实验组、资源组管理等,由各客户端自动获取相关信息并发布至作业操作端;作业操作工具集采用简化规范的命令行方式,实现规范统一的作业操作,并能友好的支持其他批处理系统;调度控制器实现作业控制、分组控制、资源池控制等,并能有效的处理多队列的负载均衡问题。 本文提出的方案有效的解决了HTCondor批处理系统实际生产中的作业操作繁琐、调度控制困难、用户管理缺失等问题。

Primary author

Mr 晓巍 姜 (高能所)

Co-authors

Ms Hongnan Tan (高能所) Dr Jiaheng Zou (高能所) Ms Jingyan SHI Jingyan (高能所) Ms Ran Du (高能所) Mr Zhenyu Sun (高能所)

Presentation materials