Conveners
科学数据管理与信息化III
- 丰尧 侯 (ITP)
Dr
海峰 赵
(高能物理研究所)
06/07/2017, 16:00
计算基础设施与数据中心
分会报告
拟于明年开始建设的北京“高能光源”(HEPS)建成后将是世界上亮度最高的第四代同步辐射装置,提供的X射线具备nm量级空间分辨、ps量级时间分辨、meV量级能量分辨能力,作为一个多学科交叉平台,能够推动我国在能源材料、航空航天、能源等多个领域的发展。HEPS拟建设“HEPS数据处理中心”,来应对实验产生的大量数据的存储和计算。本报告将对这些海量数据在采集、传输、存储、分析和计算方面的需求进行分析,和诸位专家对这些问题进行探讨,并向各位专家请教对中心的建设意见。
Mr
庆宝 胡
(Primary)
06/07/2017, 16:20
计算基础设施与数据中心
分会报告
随着大规模密集型计算集群环境日益复杂化,针对计算环境的监控手段也日益丰富。相对独立的监控软件,从各自层面对集群运行状态进行展现,及时发现并告警计算环境中的服务异常。然而,异常故障的触发原因往往无法通过单一来源的监控信息进行简单定位,需要联合多种其他监控方式的异常事例基于同时段进行关联分析,并做详细分析比较等,才能定位异常错误的触发原因。
本文通过改进集群日志监控系统HEPLog框架,搭建了计算集群统一监控分析框架,实现了对ganglia、NMS、系统日志、存储服务器等多种监控数据源和第三方监控数据的统一采集,并采用流式处理技术对多种监控数据流进行关联分析,逐条丰富监控数据的属性信息,实现了计算集群在服务状态、系统负载、系统环境、硬件状态等多个监控维度的关联数据展现。