智能运维实现思路

116 天前
 ChristopherY
目前基于开源的 gengine 实现了一套专家规则推理引擎,在此开源框架的基础上增加了对象容器、元条件、动作、规则调度等外围的业务和管理逻辑。
设备上报消息,通过 spark 来进行计算,实现了一套基础算子。spark 和推理引擎不在一个上下文,需要进行通信。有没有高效的通信方式?或者说有更成熟的推理引擎方案?
1809 次点击
所在节点    程序员
11 条回复
dufzh
116 天前
最近也在学习这方面的内容,有什么好的文章推荐吗,谢谢
qW7bo2FbzbC0
116 天前
好久之前也构思过,数据不是输入到规则引擎计算之后就行吗,怎么还要搞低延迟?金融级智能运维?
ChristopherY
116 天前
@qW7bo2FbzbC0 不是,网络运维吧算是。现在用 rpc 框架来写的,后续想换个。主要是想问问有没有比较好的解决方案来搞这一套
ChristopherY
116 天前
@dufzh 我也没找到比较全面介绍这个的。都是网上瞎搜的,了解个大概,加上一些公司内部资料
bain1wang
116 天前
airflow 这种?
ChristopherY
115 天前
@bain1wang 搜了一下 airflow 是什么,感觉不太一样,airflow 应该主要是工作流程的编排、调度?

规则推理引擎一般是基于规则匹配,通过逻辑推理(类似于一堆 if else ),然后得出结论。专家系统之类的
bain1wang
115 天前
你是要做自动化,还是根因分析呢,如果是后者,我们用的是异常传播链,由业务异常然后不断向下游的异常事件寻找原因事件,下钻到没有异常为止。用不上 if else 。
ChristopherY
115 天前
@bain1wang 做异常事件的根因分析。异常事件编写感觉很麻烦,首先得定义好规则,然后又要定义一堆统计指标来判断。不同的异常事件之间也会有耦合,比如事件 A 是事件 B 的原因之类的。一般你们异常事件和根因分析是怎么定义和实现的呢?
bain1wang
115 天前
@ChristopherY 先定义基本的异常事件,入口是业务 url 慢/错告警或者外部拨测的告警,然后是网络、应用,虚拟机、服务器、硬件的层次的基础异常事件,先专家经验把明确因果连接起来(可视化拖拽),然后根据真实故障的 TOP10 ,去建立对应的根因分析链路,完善因果引擎。当然,事件对象之间也有纵向的归属关系。大概这么玩的,太细节的就不说了,,仅供参考
ChristopherY
114 天前
@bain1wang 感觉目前搞下来最麻烦的还是制定专家经验,根因分析。话说这个东西和知识图谱结合起来是不是更方便一些?
bain1wang
109 天前
@ChristopherY 知识图谱建设是个麻烦事(人工成本高,建设比较麻烦),基本上搞着搞着就搞不下去了。图谱去容纳专家经验我觉得是对的,只是感觉不适合放图数据库去推理,目前业界也没看到几家落地不错的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1114205

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX