智能运维实现思路

目前基于开源的 gengine 实现了一套专家规则推理引擎，在此开源框架的基础上增加了对象容器、元条件、动作、规则调度等外围的业务和管理逻辑。
设备上报消息，通过 spark 来进行计算，实现了一套基础算子。spark 和推理引擎不在一个上下文，需要进行通信。有没有高效的通信方式？或者说有更成熟的推理引擎方案？

dufzh

306 天前

最近也在学习这方面的内容，有什么好的文章推荐吗，谢谢

qW7bo2FbzbC0

306 天前

好久之前也构思过，数据不是输入到规则引擎计算之后就行吗，怎么还要搞低延迟？金融级智能运维？

ChristopherY

306 天前

@qW7bo2FbzbC0 不是，网络运维吧算是。现在用 rpc 框架来写的，后续想换个。主要是想问问有没有比较好的解决方案来搞这一套

ChristopherY

306 天前

@dufzh 我也没找到比较全面介绍这个的。都是网上瞎搜的，了解个大概，加上一些公司内部资料

bain1wang

306 天前

airflow 这种？

ChristopherY

306 天前

@bain1wang 搜了一下 airflow 是什么，感觉不太一样，airflow 应该主要是工作流程的编排、调度？

规则推理引擎一般是基于规则匹配，通过逻辑推理（类似于一堆 if else ），然后得出结论。专家系统之类的

bain1wang

306 天前

你是要做自动化，还是根因分析呢，如果是后者，我们用的是异常传播链，由业务异常然后不断向下游的异常事件寻找原因事件，下钻到没有异常为止。用不上 if else 。

ChristopherY

306 天前

@bain1wang 做异常事件的根因分析。异常事件编写感觉很麻烦，首先得定义好规则，然后又要定义一堆统计指标来判断。不同的异常事件之间也会有耦合，比如事件 A 是事件 B 的原因之类的。一般你们异常事件和根因分析是怎么定义和实现的呢？

bain1wang

305 天前

@ChristopherY 先定义基本的异常事件，入口是业务 url 慢/错告警或者外部拨测的告警，然后是网络、应用，虚拟机、服务器、硬件的层次的基础异常事件，先专家经验把明确因果连接起来（可视化拖拽），然后根据真实故障的 TOP10 ，去建立对应的根因分析链路，完善因果引擎。当然，事件对象之间也有纵向的归属关系。大概这么玩的，太细节的就不说了，，仅供参考

ChristopherY

305 天前

@bain1wang 感觉目前搞下来最麻烦的还是制定专家经验，根因分析。话说这个东西和知识图谱结合起来是不是更方便一些？

bain1wang

300 天前

@ChristopherY 知识图谱建设是个麻烦事（人工成本高，建设比较麻烦），基本上搞着搞着就搞不下去了。图谱去容纳专家经验我觉得是对的，只是感觉不适合放图数据库去推理，目前业界也没看到几家落地不错的

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1114205

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.