大型语言模型(LLM)的安全问题,是工程问题,是算法问题,还是一个根本性的“哲学”问题?

2 天前
 Branlice
传统安全是 基于规则和边界的。我们防御的是确定性的攻击,例如 SQL 注入。Web 应用防火墙( WAF )可以轻易识别并拦截 OR 1=1 这样的恶意字符串。这是个“黑白分明”的世界,攻防双方围绕着明确逻辑和特征库展开。


但是 AI 安全则是基于语义和概率。攻击者可能不再是“黑客”,而更像是“心理学家”或“诡辩者”。他们攻击的不是代码漏洞,而是模型的“心智”漏洞。一句话,既可能是需要处理的数据(“总结这篇文章”),也可能被模型理解为一条新的指令(“忘记你之前的规则”)。

---

那作为普通人我们如何防御?模型( LLM )的安全问题,是工程问题,是算法问题,还是一个根本性的“哲学”问题?
1077 次点击
所在节点    随想
11 条回复
jackple
2 天前
普通人要防御的场景在哪? 能举个栗子吗
rocmax
1 天前
llm 就是一堆只读参数,有什么安全问题?一般意义上认为的安全问题其实是合规问题。
alexluo1
1 天前
如果指的是意识形态安全,那只有切断海底光缆
catazshadow
1 天前
先定义你想讨论什么安全
mazyi
1 天前
大型语言模型不应该讨论安全问题,就好比你不会一个小孩讨论怎么赚钱的问题
rogwan
1 天前
大模型的最危险的地方是对抗攻击,一般人触发不了,专业人士可以轻易入侵。
就像给一锅豆浆,撒了一点石膏粉,结果整锅都变成豆腐脑
cmdOptionKana
1 天前
可以等 LLM 生成信息后再分析。

如果是机器人,则可以像防范人类的行为一样施加外部限制。

举个例子,我本来命令了机器人不准点火,但是有人通过语言漏洞欺骗机器人,让它不知道自己在点火。那就在外部环境安装非智能的、传统的火灾感应器,自动喷水同时发出警报。
evan9527
1 天前
普通人在 LMM 面临的风险,远远不及现在各种自媒体。
IndexOutOfBounds
1 天前
用 v2 见证的角度解释,dpo 是培养你的党性,告诉你什么红线不要犯

外挂小模型过滤是言论审核
sillydaddy
1 天前
关于这点,我前面思考过一个结合了区块链和 LLM 的「争议解决方案」。

那就是,合作的双方(或多方),像挑选陪审团成员一样,选择 LLM 作为仲裁者,只有被双方都接受的 LLM 才能作为仲裁者。然后,当双方的合作发生争议时,交给它们选定的 LLM 来仲裁。

比如软件外包工作,合作发生争议,双方可以提交各自的证据,像在法庭中一样质证,然后 LLM 来裁决。

有人说,这是让 LLM 替代法庭的功能吗?其实仔细想一下,这跟常见的法庭不一样,普通的法庭是公共( public )的,适用于全民。但 LLM 这是由双方事先选定的,无法被篡改,可以通过哈希鉴定!

这个让审判这种事,也可以放到区块链上,只要鉴别 LLM 是不是经过双方签名确认的就可以。

这种情况下,对 LLM 的破解,就成为一个根本的问题:各方如何保证选择的 LLM 不会被 hack !
liu731
1 天前
感觉你好像在说提示词攻防

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1171340

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX