或者有什么好的获取敏感词的方法,想了个爬取海量评论做语义初筛再标注,但感觉不太优雅,不知道 v 友们有没有更好的想法带来点启发
1
Hayashikawa 2024-06-04 18:16:31 +08:00
|
2
freshgoose 2024-06-04 18:17:10 +08:00
github 上有人收集了很多
|
3
shiluanzzz 2024-06-04 18:19:31 +08:00
p 主没明确说敏感词是哪些 zz ?还是通用的
https://platform.openai.com/docs/guides/moderation/overview openai 的这个过滤的 api 可以试试? |
![]() |
4
vivisidea 2024-06-04 18:22:41 +08:00
现在已经不流行用敏感词了,直接上 NLP 模型分类,bert 啥的
|
![]() |
5
user23125 2024-06-04 18:23:09 +08:00
国新办清查词单?
|
6
qviqvi 2024-06-04 20:25:05 +08:00
最好国家出一个标准,不然不好处理
|
7
wangjh0802 2024-06-05 11:16:16 +08:00
@qviqvi 这东西还能有标准? 哈哈哈哈哈哈哈哈哈
|
10
azarasi 2024-06-05 15:26:26 +08:00
什么是敏感词本身就是敏感的
|
11
ray2023 2024-06-05 15:56:05 +08:00
https://github.com/cjh0613/tencent-sensitive-words, 之前有个项目用的这个, 但是还是需要自己去维护一下, 因为有些词并不符合自己的规则
|
![]() |
12
Bumon OP @shiluanzzz 政治类的能很容易得到,但歧视类等比较容易模糊词意但又会有的就有点难获取到,谢谢你的链接
@Hayashikawa 这种算是第三方服务了,我这边有需求是自己维护一份来着 @freshgoose yesyes ,有在交友网找到一些公开的词库,在 v 发帖也是想看看有没有更丰富的源 @vivisidea 哥们说的这个也有在做,但就,还是需要维护一份词库 hhh @qviqvi 国家确实也有标准,但是标准只有分类没有内容,具体内容还得自己维护 @ray2023 谢谢老哥的分享 谢谢各位 v 友的分享! |