求靠谱敏感词过滤方案

2023-09-14 10:06:57 +08:00
 sanyang001

事情是这样子的: 我们项目需要移动端本地的敏感词检测服务,之前使用三方的收费太贵,现在打算自研。

这几天调研了 DFA 、Trie 、AC 这类的实现方案,对于几 w 的敏感词库,CPU 、内存尚可,有误杀的几率;老板比较有野心,说要搞几十 w 的敏感词库,我觉得移动端方案估计靠不住了。

求 V 站大佬提供一些本地化的检测方案,主要性能要可靠,感激不尽。

15435 次点击
所在节点    Android
53 条回复
dingyaguang117
2023-09-15 08:51:17 +08:00
AC 自动机 O(N) 时间复杂度,主要是内存占用问题
sanyang001
2023-09-15 09:51:11 +08:00
@dingyaguang117 是的,试了几个 AC 方案,内存占用居高不下。
dif
2023-09-15 10:03:29 +08:00
直接学国内,一刀切不就行了。之前在某游戏论坛,打了不到几十个字,说我敏感了,我翻来覆去的看也不知道哪里敏感了。所以,懂了吧。
kangkkk
2023-09-15 11:46:18 +08:00
第三方阿里的不贵吧
noyidoit
2023-09-15 14:08:54 +08:00
我之前做过服务端的敏感词过滤,好奇你们是什么业务背景,需要在移动端本地进行
cosiner
2023-09-15 14:51:37 +08:00
要全, 要快, 要小, 要本地....................
777777
2023-09-15 14:55:43 +08:00
采用 NFA ,内存占用小,还能支持正则。
codelover2016
2023-09-15 15:14:30 +08:00
@stinkytofu 你过于小看劳动人民的智慧了
lbfjkaou
2023-09-15 16:28:00 +08:00
移动端本地的敏感词检测服务 -> 能不能拆成请求服务器
lbfjkaou
2023-09-15 17:18:56 +08:00
@noyidoit #45 求问 这边服务端的敏感词过滤的大致思路
noyidoit
2023-09-15 17:56:50 +08:00
@lbfjkaou 两年前做的,具体细节已经忘了......大体上,初始化单例时载入审核方提供的词库,几万个词,对内存没什么影响(叠甲:单例可以满足当时的需求);算法印象中是基于 AC 自动机,可以检出特殊字符混淆,但谐音只能靠扩充词库。其他应该没什么好说的了,网上类似的解决方案一大堆,github 也有现成的库,实在不行也有第三方接口可以用
jimczj007
2023-09-15 19:46:58 +08:00
本地敏感词检测完,服务器不用检测了么
hellomynameis
2023-09-16 15:01:13 +08:00
@codeself #28 只是因为你这首诗里没有真正涉敏的关键词,阿瓦隆放行了。

bilibili 阿瓦隆其实完全支持谐音、拼音识别。

不信你可以用小号发条 “戏婧乒” “鹏灾周” 之类的 b 站评论,用大号看能不能看到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/973635

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX