Speaker
振京 CHENG Zhenjing
(高能所)
Description
作为新型计算资源管理技术,云计算和虚拟化正在高能物理领域得到越来越广泛的应用。在此背景下,中国科学院高能物理研究所基于开源的云计算管理软件Openstac和KVM搭建了高能所公共服务云IHEPCloud,使用作业管理系统Torque PBS、HTCondor等调度和管理用户作业。考虑到IHEPCloud 硬件资源由计算中心和各高能物理实验提供,以往采取的方式是为各实验合作组,如LHAASO,JUNO,CEPC 等建设独立的虚拟计算集群来提供计算服务。但是这种方式下各物理实验可使用的CPU 核数是固定的,而各物理实验的资源使用高峰时间是不同的,经常出现部分实验的队列有大量作业排队,部分实验有大量计算节点空闲的情况,从而导致整体资源利用率较低。
本文从这个角度出发,提出了弹性的虚拟计算资源管理机制。系统通过高吞吐量计算系统HTCondor 运行计算作业,使用开源的云计算平台Openstack 管理虚拟计算节点,给出了一种结合虚拟资源配额服务,基于双阈值的弹性资源管理算法,实现资源池整体伸缩,同时设计了二级缓冲池以提高伸缩效率。目前系统已部署在高能所公共服务云IHEPCloud 上,实际运行结果表明,当计算资源需求变化时系统能够动态调整各队列虚拟计算节点数量,同时计算资源的CPU利用率相比传统的资源管理方式有显著的提高。
Primary author
振京 CHENG Zhenjing
(高能所)