Speaker
晓飞 闫
(IHEP)
Description
摘要:
随着计算集群规模的扩大和架构复杂度的提升,传统运维模式面临效率低下、人工成本高等挑战。本文提出xMan系统,一种基于Foreman与Puppet的自动化安装部署配置解决方案,旨在实现多站点、异构环境下的高效运维。xMan通过PXE启动和Kickstart模板实现操作系统的全自动化安装,支持CentOS、AlmaLinux、Ubuntu等主流系统;结合Puppet的声明式配置管理,提供覆盖用户管理、存储(Lustre/EOS)、监控(Ganglia/NRPE)、计算调度(Slurm/Condor)等场景的模块化模板。系统采用负载均衡架构优化Puppet服务器性能,支持批量主机操作(如IPMI远程控制)和参数化配置,显著提升部署速度与容错能力。实际部署表明,xMan已成功管理高能物理研究所(HEPS)、拉索(LHAASO)等站点超过4000台主机,减少人工干预50%以上,为大规模计算环境提供了可扩展、高可靠的自动化运维实践。
关键词:自动化运维;Foreman;Puppet;Kickstart;计算集群;负载均衡
Primary author
晓飞 闫
(IHEP)