Speaker
Mr
庆宝 胡
(Primary)
Description
随着大规模密集型计算集群环境日益复杂化,针对计算环境的监控手段也日益丰富。相对独立的监控软件,从各自层面对集群运行状态进行展现,及时发现并告警计算环境中的服务异常。然而,异常故障的触发原因往往无法通过单一来源的监控信息进行简单定位,需要联合多种其他监控方式的异常事例基于同时段进行关联分析,并做详细分析比较等,才能定位异常错误的触发原因。
本文通过改进集群日志监控系统HEPLog框架,搭建了计算集群统一监控分析框架,实现了对ganglia、NMS、系统日志、存储服务器等多种监控数据源和第三方监控数据的统一采集,并采用流式处理技术对多种监控数据流进行关联分析,逐条丰富监控数据的属性信息,实现了计算集群在服务状态、系统负载、系统环境、硬件状态等多个监控维度的关联数据展现。
Primary author
Mr
庆宝 胡
(Primary)
Co-authors
Mr
Xiaowei JIANG Xiaowei
(高能所)
Mr
wei 郑伟
(高能所)