Speaker
Mr
胡 HU Qingbao
(高能所)
Description
高能物理计算领域一平台多中心方案,旨在整合分布在各个地域的高能物理计算、存储资源,形成逻辑统一的大规模集群,通过统一管理、运维、资源调配作业分发,降低多计算中心运维成本,优化计算、存储资源配置,实现硬件资源和业务需求的高效对接,从而缓解高能物理日益增长的科学计算需求。
为更好的应对各个地域的站点资源运维管理,通过对高能所计算集群开放运维分析平台(OMAT)进行重构,设计实现了支持异地实时采集分析的一平台多中心监控设计方案。
监控范围层面,该方案不断拓展采集手段已支持节点性能、系统服务、存储性能、日志分析、动力环境、网络流量、作业调度和资源使用情况等领域的数据采集和分析展现。运维告警层面,该方案设计实现了统一告警平台,支持监控数据基于业务告警策略实时分析和告警,同时支持异地数据漏采实时告警,保证跨地域数据采集的真实性、可靠性和完整性。监控数据可视化层面,该方案基于数据可视化实际需求,设计实现了面向特定应用需求的数据缓存层用于存储关键的指标型监控数据,使用极小的存储空间,实现监控平台业务层数据和核心层数据的解耦合,保障监控数据的持久化。
该监控方案现已应用于高能物理一平台多中心的日常运维,较好的实现高能所站点和其他异地站点的日常运维监控需求。
Primary author
Mr
胡 HU Qingbao
(高能所)
Co-authors
Ms
JIngyan Shi
(高能所)
Mr
Xiaowei JIANG Xiaowei
(高能所)
Dr
Yaodong Cheng
(IHEP)
Mr
Zheng Wei
(Sun Yat-sen University)