鼎茂科技受邀参加2021GOPS上海站,分享AIOps场景化建设交付
2021/9/8 15:00:00
鼎茂科技首席行业专家徐海涛带来《AIOps场景化建设交付探索》主题分享
11月18日-19日,由高效运维社区(GreatOPS)和开放运维联盟(OOPSA)、RPA 时代社区联合主办的GOPS全球运维大会2021上海站正式开幕。GOPS已经成功举办十七届,主要面向运维领域内技术人员,传播先进技术思想和理念,分享业内最佳实践,共同探讨技术创新,推动行业发展。

鼎茂科技第四次受邀参会,首席行业专家徐海涛带来《AIOps场景化建设交付探索》主题分享,同与会嘉宾进行了深入探讨和交流。 鼎茂科技CEO李遥接受了央视栏目组采访,就行业发展趋势方向和鼎茂科技本身进行了介绍和分享。 海涛老师分别从AIOps建设的难点与破局方法、AIOps场景的定义要素、建设的技术方法、规划场景路线与落地和行业展望等方面进行了分享。

AIOps建设的难点和破局方法

面对企业AIOps 建设中遇到的日志缺失、日志不规范、业务无监控或监控缺失、告警不可读、运维管理工具缺失等难点问题,归根结底可以总结为数据、算法和自动化工具三方面的缺失或不足,怎样在现有的资源下更好的完成企业AIOps建设,鼎茂给出的方法是场景化建设。
鼎茂科技致力于为企业提供开箱即用、并不断优化的场景运营闭环产品。在场景化演进过程中,企业短期痛点驱动速赢方案,以AI场景和大数据底座为支撑的场景数据模型,在持续场景迭代和持续数据集成的推动下,反向进行跨越式体系建设,倒推回补驱动场景领域下的数据治理和场景管理并行建设,完善CMDB、数据关联和运维大数据,加速运维大数据的集中集成,流程规范实现可视化、线上化、数字化和智能化,从而促进管理提升。

AIOps场景的定义与要素:标准场景——用户场景

AIOps场景的定义与要素,基于标准场景到用户场景的交付。标准场景加痛点问题,在经过适用情景分析判断,实施条件匹配,场景逻辑运行,输入数据,输出结果的流程后,得到解决用户难点的交付场景。 以标准场景为根因定位为例,因容器云环境微服务应用故障定位难恢复慢等难点,交付场景为:

1、适用情景

业务系统按照微服务技术架构,并容器化部署,运行在容器云上,当应用出现缓慢、错误、不可访问等相关故障时,进行故障原因的快速定位;

2、实施条件

1、具备容器管理平台,可获取服务、实例、容器和所属云主机的完整归属关系;
2、已实施APM监控,可获取应用的性能与可用性指标及告警,和实时调用链路数据;
3、已实施容器平台监控监控,可获取相关实例、容器、主机的性能和可用性指标及告警;
4、已实施基础监控,可获取相关主机、网路、存储等设备的性能和可用性指标及告警;
5、具备CMDB,可获取容器平台相关云主机、宿主机、存储、容器云专用网络设备与出入口网络链路的信息和依赖关系;

3、运行过程

应用发生故障告警(包括响应缓慢、不能访问、访问报错、实例异常日志、实例OOM等),根因定位服务基于应用告警触发,实时运行定位模型,获取上述相关应用、容器、实例、云主机、宿主机、依赖存储、专用网络及出入口链路的监控指标、告警、调用链路、组件与基础资源依赖关系、基础资源上下层依赖关系,快速运算找出引起应用故障的根因组件和引发指标/告警/日志,定位结论展现给运维人员,运维人员根据定位结论进行快速的验证确认故障引发原因、针对制定措施恢复故障;

4、输入数据

1、应用实例、容器平台、主机、网络设备等监控指标时序数据,如:<id,name,cmdbName,:<tags>,time,value>;
2、应用实例、容器平台、主机、网络设备等的告警数据,如:<id,cmdbName,:<tags>,time,text>;
3、应用实例调用链,如:<traceId,spanId,stepId,parentSpanId,cmdbName,time,duration,status,res>;
4、容器平台实例、容器、云主机、宿主机的依赖关系,如:<cmdbName,parentCmdbName,type,relType>;
5、容器专用网络设备及出入口链路信息/依赖关系,如:<cmdbName,ifName,linkedCmdbName>

5、输出结果

按照最可能为根因的顺序推荐前几的指标与告警,如:<sortNo,cmdbName,time,metricId,metricName,alertText>。

AIOps场景化建设的技术方法

以流式引擎、批任务引擎、统一搜索、边缘节点和AIOps算子、算法管理为能力底座,通过数据映射模型、离线更新模型、算法模型编排等技术方法,支撑从数据流到可视化展现的全周期场景建设。 规划场景路线与落地

整体规划场景建设路线:
基于目前行业机构正在提升精细化数字化IT治理的过程阶段,鼎茂的AIOps路线建议立足与客户IT治理共同发展促进的发展路线,由统计型、弱数据关联依赖的技术切入,先解决客户在局部领域的痛点问题,再配合客户的IT治理发展,进行技术研发和场景建设,逐步建设至全领域的精准的、关联的、全面的智能运维完整场景。 细分建设,基于zabbix做AIOPS建设:
在具体细分运维领域上,可基于既有数据与工具基础,以解决现实问题为导向,成体系的设计落地细分的AIOPS场景;基于zabbix监控建设基础运维的AIOPS闭环场景。 细分建设,基于日志平台的AIOPS建设:
基于日志平台建设应用业务运维相关的AIOPS闭环场景。 基于特定业务系统的AIOPS建设:
基于特定业务系统的AIOPS闭环场景建设。 支撑技术的建设

鼎茂科技ARCANA平台提供了完整的OPS数据支撑能力,从边缘节点的数据收集、边缘存储和数据抛投能力,到分析节点的数据分析、AI算法算子管理和数据看板、报告报表、API交互和告警等数据服务能力,完备的管理组建和安全管控能力,为企业建设AIOps 提供支撑。 展望与探索

以AI技术加速驱动运维数据支撑能力的建设,通过大数据和AI的双向赋能,不断通过场景驱动技术创新,更高效精准的为企业智能运维提供服务。会议期间,更多的行业专家和技术人员也来到鼎茂科技展台,共同交流探讨智能运维的创新应用。