编辑推荐: |
本文主要介绍了
系统监控的痛点、智能告警设计及智能监控落地知识。
本文来自于微信公众号我们的开心,由火龙果软件Linda编辑、推荐。 |
|
AIOps,即Artificial Intelligence for
IT Operations,智能运维。指的是将人工智能应用于运维领域,基于已有的运维数据,通过机器学习的方式,来攻克自动化运维无法根治的难题。星云监控中心作为一体化运维平台中的应用监控模块,从今年6月开始积极探索AIOps在智能监控领域的应用,完成了智能监控场景的落地和试点,已接入BoEing、卡受理、快捷、掌银等共计64个重要系统模块,233个监控指标,实现了指标异常点无阈值智能告警,为后续全面建设指标钻取、告警收敛、根因分析等智能场景提供技术基础。
AIOps也是对规则的AI化,即将人工总结运维规则的过程变为自动学习的过程。智能运维领域应用的重点在于做好监控系统和告警系统。传统IT运维需要管理大量的告警,人工维护大量的配置信息,极大消耗了运维人员的精力。智能运维的核心就是把运维人员从纷繁复杂的告警中解脱出来,专注分析问题产生的原因,体现运维的价值。因此星云应用监控团队从监控中心入手,逐步开展监控智能化的建设。
一、系统监控的痛点
当前在应用系统监控中存在这样一个痛点,对于大量的性能数据,需要运维人员凭借自身经验设置一个告警阈值,基于这个阈值才能产生告警。这种机制不仅需要运维人员充分了解业务规则,同时还要熟悉业务的峰值波动,按不同日期和不同业务波段设置阈值。目前我行业务系统数量大幅上升,同时业务场景池不断扩大,因此人工设置阈值的难度逐步攀升,阈值设置的不合理将产生大量的误告警或告警漏报的情况。
二、智能告警设计
星云应用监控团队计划从时间序列预测和重构时间序列两个角度应用深度学习技术去解决运维数据异常检测问题。在模型的选择上,通过基于历史数据的推演得到测试分析结果。
综合对比仿真结果,LSTM网络对于交易量这种波动幅度较大的时间序列曲线有更好的预测效果。经过反复推演,通过历史数据结合实时数据的模式,可以达到较好的预测效果。
最终通过离线分析模块的建设,构建了基于Flink的实时流数据整合离线模块的系统架构,实现了离线模型生成、在线模型调用的操作闭环。
在智能产生告警方面,通过对预测数据和实际数据之间的误差值进行归一化和上下加权,最后计算单位时间内的均方误差值,当该值偏离历史最大值则产生告警。在产生告警方面,已经完全解决运维人员手工设置阈值的难题,同时有效规避了因毛刺和业务冲高等意外因素产生的误告警,将告警的准确性推升至新的高度。
从上图可以看到黄色的预测数据准确贴合蓝色实际数据,当异常发生时,数据的预测仍不受异常点影响。
通过上图的告警回测功能,可以追溯各个参数对告警异常点检测的影响,目前所有参数都是根据不同的系统数据源智能生成,同时也支持人为微调以实现特殊的告警要求。
三、智能监控落地
从8月份启用以来,技术保障团队积极配合检验智能监控的有效性,整体效果完全达到了预期的目标。
智能监控场景的成功落地,有力证明了AIOPS在我行落地的可行性、有效性和必要性,也充分激发了星云应用监控团队的开发热情。目前,告警智能收敛、根因分析、性能指标钻取等功能的开发工作正在如火如荼的进行中,相信在不久的将来,一体化生产运维平台在运维自动化的基础上能更上一层楼,最终实现运维智能化的目标。
|