Speaker
思琦 侯
Description
分布式文件系统如Lustre是现有的科学计算中的重要基座,随着存储容量和用户业务量不断扩大,存储系统的负载持续升高。单一用户的异常读写请求往往容易导致存储系统的卡顿,影响整体的用户体验。传统的异常处理通常由运维人员浏览日志,排查定位异常用户或异常读写请求,最后实施故障排除策略恢复系统访问速度。由于日志数据庞大,该传统的异常处理模式存在异常定位困难且处理滞后的问题,极大影响了用户的使用体验。随着人工智能技术的发展,深度学习逐渐被应用在在软件运维过程中。本项目搭建面向存储系统的异常行为智能检测系统,涉及用户行为数据采集、时序数据处理、模型搭建及训练和部署验证等过程。该系统利用深度学习技术,将用户读写信息转换为时间序列数据,通过搭建长短时记忆网络,使用无监督学习的方式训练模型。该方法在Lustre的MDT和OST上分别进行训练验证,异常识别精确率得到了提升,异常误报率下降,竞验证,该方法能够有效降低运维人员的错误定位时间成本,提升科学计算系统中文件存储系统的异常处理效率。