Speaker
伟 郑
(IHEP)
Description
高能物理计算平台在大规模科学计算与数据分析中至关重要,其运维规模和复杂性不断增加。本文针对现状与挑战,提出物理机与容器环境的统一部署方案,构建大规模统一监控与报警系统,集成运维数据管理技术,实现监控与作业管理的自动联动,并引入故障智能分析技术以提升运维效率与可靠性。本研究为高能物理及其他大规模计算平台的运维优化提供了技术参考。。