Speaker
Ms
娟 陈
(高能所)
Description
各高能物理实验通常会产生海量的数据,为满足其计算和存储需求,高能所计算中心一直开展高性能计算方面的研究,其中集群计算是高性能计算的重要方式之一。目前计算中心的本地集群包括约20000个CPU核,上千台服务器,20PB的磁盘存储和10PB的磁带存储。在江门中微子实验JUNO和高海拔宇宙线观测实验LHAASO建成后,计算中心每年需存储并处理的数据超过10PB。面对数据量的增多,集群规模必将继续扩大。面对现有的集群规模,快速准确的检测异常对于日常运维来说具有重要的意义和挑战。传统的异常检测方式包括:针对不同的服务器指标设定静态阈值;利用关键字搜索检查系统日志等。但是这些方式需要专业人员的经验,且无法适应多种场景,不具有可移植性。另外,这些方式无法适应负载的变化,也无法适应服务器升级等情况。异常相对于正常数据来说是少而不同的,它通常被分为空间异常和时序异常。空间异常指在不考虑时序信息的情况下,在单维或高维特征空间中不同于大部分数据的数据点。时序异常指与利用历史数据预测的可靠分布偏离程度大的点,包括意料之外的峰谷,趋势变化等。基于机器学习的异常检测利用大量的历史数据训练机器学习模型,这种方式可以避免前文提到的传统异常检测的劣势之处。Ganglia监控系统每间隔约五分钟得到一组服务器指标数据,目前基础监控指标有20多种,各类服务领域专用指标接近百种。每年可利用Ganglia监控系统得到上亿条监控数据,这为机器学习提供了大量的训练样本。本文主要介绍通用异常检测框架的设计与实现以及基于该框架对海量存储系统进行的异常检测算法研究。首先,我们为异常检测任务设计并以web实现了一个具有良好人机交互界面的通用异常检测框架,该框架包括了异常检测任务所需要的通用功能模块,如:样本库建立、样本打标、数据可视化、预测性能评估、检测性能评估、算法库、模型调用接口等。此外,异常框架检测框架针对空间异常和时序异常将异常检测方法分为两大类。空间异常检测主要采用基于距离、密度等思想将异常数据与正常数据分离的方式。时序异常检测将整个任务分为时序模型预测和异常检测,时序模型预测组件利用历史数据进行可靠预测,异常检测组件对预测数据和真实数据差异进行评估,利用N-sigma原则设置阈值,检测异常。并且基于该异常检测框架,我们分别利用Isolation Forest和LSTM循环神经网络算法训练模型对计算中心海量存储系统进行空间异常和时序异常的检测,并比较分析基于机器学习的异常检测方式和传统异常检测方法的效果差异。
Primary author
Ms
娟 陈
(高能所)
Co-authors
Ms
Lu WANG Lu
(高能所)
Mr
胡 HU Qingbao
(高能所)