哪个大模型可以自动根据上下文生成关于某个主题的聊天对话(纯文本),同时在保持文字意思大致不变的前提下,精确嵌入隐藏水印?

105 天前
 fbxshit

A: 北京的糖葫芦是不是很有名? B: 没错!尤其是在冬天,街头的小贩会卖糖葫芦,山楂蘸上糖浆,酸甜可口。 A: 真想买一个尝尝,感觉很有童年回忆!

以上是 LLM 自动生成的一段关于北京美食的对话。

请问大家,有没有某个通用的方法,可以让 A 在给 B 按照 LLM 生成的语句发送第一句话的时候,嵌入一段隐藏的信息,比如说一段二进制字符串 10110011 ,隐藏到第一句话里面去? 这可能会让第一句话有某种变形,比如变成“北京的糖葫芦听说很有一点名气,你觉得呢?”,或者变成“你知道北京的糖葫芦真的很有名很有名吗?”。在嵌入隐藏信息后,B 收到了“北京的糖葫芦听说很有一点名气,你觉得呢?” 然后按照某种事先商定的规则可以自动把 10110011 解码出来。

B 在收到隐藏的信息 10110011 后,决定回复 A 一段字符串 00001100 ,通过把 00001100 嵌入关于美食的第二句话“没错!尤其是在冬天,街头的小贩会卖糖葫芦,山楂蘸上糖浆,酸甜可口”。 这可能会让第二句话变形成“对!尤其是冬天,小贩会卖糖葫芦,山楂蘸糖浆,又酸甜又可口”。 A 在收到后,程序按照某种规格自动解码出 00001100 这一段隐藏字符。

每一段 A 与 B 的来回对话,都能被大模型按照某个主题以及前面各轮上下文,自动实时生成的文字掩盖。在任何第三方看来,这都只是一段关于美食的对话而完全看不出真实的对话隐藏在其中。

请问大家,这个想法有没有可能通过某种本地运行的 LLM 和相应的文字处理程序实现?

3819 次点击
所在节点    奇思妙想
25 条回复
newaccount
105 天前
在字之间用零宽空格?信息就用不同的字符表示 01 或者对应转成十个数字对应四角编码,多找几个不同的零宽空格用用?
aloxaf
105 天前
@fbxshit #14 当然,这只是个水印技术,但是原理上是类似的。

大模型会根据上一个 token 预测下一个 token ,这个水印的原理就是在生成下一个 token 前,根据水印哈希+前一个 token 计算出一个可用的 token 白名单,然后提高生成 token 落在白名单里的概率,来实现将水印编码进去的效果。

这个技术是固定水印+动态白名单,只能起到验证水印的作用——即使用水印重新生成一遍白名单,然后验证每个 token 是否落在白名单内,概率越高则越可能加了水印。

但是将这个技术稍加改动——使用密钥生成一个绿名单,然后在生成下一个 token 时,用要编码的信息( 0/1 )来干预(降低/提高) token 落在名单中的概率,就是反过来编码任意信息了。
干预程度越大,信息密度越高,语句也越不通顺,干预程度越低,信息密度越低,但隐藏效果也更好。
rogerer
105 天前
@wangxiaoer 文本隐写就是这个目的,只是隐写一般携带的信息比较少。
rogerer
105 天前
可以直接参考这篇博客,总结的还是挺完全的: https://blog.csdn.net/qq_36332660/article/details/132081595
本质上就是精心构造一些和常规情况不太一致的 Token 分布,难点在于,如何既构造差异分布携带信息又不能让大家发现这个序列是诡异的。

这件事情在一些涉密领域有一些应用。
lchynn
98 天前
破解文本隐写提示词:

请你对下面的文本内容, 重新用 XXX 的文风改写一下, 要保留主要核心内容和思想。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1137758

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX