有什么敏感词数据源推荐吗

2024-06-04 17:44:00 +08:00
 Bumon

或者有什么好的获取敏感词的方法,想了个爬取海量评论做语义初筛再标注,但感觉不太优雅,不知道 v 友们有没有更好的想法带来点启发

2316 次点击
所在节点    程序员
12 条回复
Hayashikawa
2024-06-04 18:16:31 +08:00
freshgoose
2024-06-04 18:17:10 +08:00
github 上有人收集了很多
shiluanzzz
2024-06-04 18:19:31 +08:00
p 主没明确说敏感词是哪些 zz ?还是通用的
https://platform.openai.com/docs/guides/moderation/overview openai 的这个过滤的 api 可以试试?
vivisidea
2024-06-04 18:22:41 +08:00
现在已经不流行用敏感词了,直接上 NLP 模型分类,bert 啥的
user23125
2024-06-04 18:23:09 +08:00
国新办清查词单?
qviqvi
2024-06-04 20:25:05 +08:00
最好国家出一个标准,不然不好处理
wangjh0802
2024-06-05 11:16:16 +08:00
@qviqvi 这东西还能有标准? 哈哈哈哈哈哈哈哈哈
duzhuo
2024-06-05 11:39:32 +08:00
@qviqvi 这就好像在说把你的 G 点告诉我。。。。
maladaxia
2024-06-05 14:52:51 +08:00
@duzhuo 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
azarasi
2024-06-05 15:26:26 +08:00
什么是敏感词本身就是敏感的
ray2023
2024-06-05 15:56:05 +08:00
https://github.com/cjh0613/tencent-sensitive-words, 之前有个项目用的这个, 但是还是需要自己去维护一下, 因为有些词并不符合自己的规则
Bumon
2024-06-18 10:17:06 +08:00
@shiluanzzz 政治类的能很容易得到,但歧视类等比较容易模糊词意但又会有的就有点难获取到,谢谢你的链接

@Hayashikawa 这种算是第三方服务了,我这边有需求是自己维护一份来着

@freshgoose yesyes ,有在交友网找到一些公开的词库,在 v 发帖也是想看看有没有更丰富的源
@vivisidea 哥们说的这个也有在做,但就,还是需要维护一份词库 hhh
@qviqvi 国家确实也有标准,但是标准只有分类没有内容,具体内容还得自己维护
@ray2023 谢谢老哥的分享

谢谢各位 v 友的分享!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1046774

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX