V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  sillydaddy  ›  全部回复第 7 页 / 共 113 页
回复总数  2241
1 ... 3  4  5  6  7  8  9  10  11  12 ... 113  
54 天前
回复了 Asuler 创建的主题 TypeScript ts 有没有直接能查看最终类型的方法
直接写一个这个类型的变量,比如 a:TypeA ,然后写 a.b ,鼠标悬浮到 a.b 上,可以看到 b 的类型。如果 b 是函数,应该可以看到函数参数的类型。
今天又用 Cursor 来写代码,给到它一个问题之后,它自己去写测试用例,自己去测试,自己去添加打印信息,自己修改后运行。改完调试后,自己把打印信息、多余的测试文件删除掉。

只要有现实的约束和反馈,幻觉和造假就不是问题。
能不能分享一下是什么点呢?
天呐,剪映是一个桌面端软件吧?意思是剪辑的东西都上传到剪映的服务器,然后某个 bit 翻转导致 blockID 串了?否则无法解释本地出现未知数据。
现在的大模型啊,你根本不知道它们什么时候会「降低智商」。大模型本身就是一个黑盒了,黑盒外面还要套一层黑盒。
@fbxshit 哈,我刚刚也想到了,我觉得是可以的。
假设 A 还是给 B 发了一句“北京的糖葫芦是不是很有名? ”(不包含隐藏信息),大语言模型正常的输出是“ 没错!尤其是在冬天,街头的小贩会卖糖葫芦,山楂蘸上糖浆,酸甜可口。”。
在每输出一个 token (可以看作是一个汉字)时,A 和 B 的大语言模型以及随机数发生器都完全处于同步状态。
就像你说的,我们可以介入这个过程,让二进制串嵌入到这个生成过程,比如在生成第一个字“没”时,其实大语言模型生成的是一个(0.2, 0.5, 1.0, 0.8, 0.7, 0.25, 0, 0.32, ...)向量,这个向量与“没”(0.2, 0.4, 1.0, 0.8, 0.7, 0.25, 0, 0.32, ..),以及“不”(0.1, 0.5, 1.0, 0.8, 0.7, 0.25, 0, 0.32, ..),以及“对”(0.2, 0.5, 0.9, 0.8, 0.7, 0.25, 0, 0.32, ..)。。。这些字最接近。然后根据接近程度,分配给“没”,“不”,“对”等这几个字,分别以(0.25, 0.3, 0.3,...)的出现概率,这时开始使用伪随机数摇骰子,我们其实是知道伪随机数在这一步一定是输出一个确定的数字,比如是 200 ,它对应到“没”字。但是我们可以介入这个过程,如果我们希望将 1 这个 bit 位加入进来,我们可以让伪随机数继续输出 200 之后的下一个数字,比如 312 ,这时它仍然映射到“没”,不符合我们的要求,继续输出再下一个,直到与“没”字不一样,比如输出 123 ,映射到“不”字,这时我们通过“相对于原本要输出的字的改变”这个现象,编码了一个 1 进去,如果希望编码 0 ,那就不改变原始输出的字。

后面可以继续这样处理,每输出一个 token ,都可以至少编码 1 个 bit 进去。当然了,有时候,如果几个字的概率分布是(0.99, 0.01, 0.01, ...)这样,那就不要强行编码 bit 1 进去了,因为可能会让文字变得不通顺。我感觉大部分情况下,是完全可以编码 bit 1 的。甚至可以每个 token 编码多个 bit 进去,如果有多个字出现的概率相似,比如(0.1, 0.1, 0.1, 0.1, 0.1, ...)。

这个方案优点就是可以非常精确的编码和解码,不需要人工介入,生成的语句还非常自然。利用的关键就是伪随机数发生器的确定性和同步。
@fbxshit >“要求它每一句话前面 10 个字,每个字的笔画分别为 7798666995”
也许是你要求的信息密度太高了。10 个字还要隐藏这么多信息,还有符合语句通顺,还有语义连贯,这是 mission impossible!
另外大语言模型对笔画、字数这些都非常不擅长。所以可能需要从其他角度考虑,或者降低一些信息密度。
可以的。关键原理是:大模型的输出可以是完全确定性的。

给定大语言模型一段输入,它的输出看起来是随机的,是概率性的。也就是每次给同样的输入,它的输出都不同。但是,在计算机界,就没有真正的随机。这里的关键是,大语言模型每次输出一个 token ,其实它输出的是一个表达 token 的一个向量,比如(0.2, 0.5, 1.0, 0.8, 0.7, 0.25, 0, 0.32, ...),我们要将它解释成具体的 token 。为什么说是解释呢,因为这个向量并不与任何一个已知的 token 一致。只是与已知的 token 接近,而且与不同的已知 token 的接近程度不同。如果你了解向量的知识,这点很容易理解。但是,我们需要把向量转换成已知的 token ,所以,我们根据向量跟不同 token 的接近程度,赋予每个 token 一个出现的概率,然后我们生成一个随机数(就像掷骰子),决定最终选择哪个 token 。这个过程就像北京的汽车摇号。

可以看到,随机性完全决定于我们的随机数,而计算机学界使用的基本都是伪随机数,每次随机看起来生成的数不一样,但它完全是确定性的。

你和接收方,可以使用一个相同的大语言模型,然后约定使用相同的随机数发生器。这样,对于同样的输入,你们的大语言模型,将给出完全相同的输出。

有了前面的 2 个大语言模型绝对同步的保证,后面就是将字符串编码到对话中了。
比如 A 先发起对话,“北京的糖葫芦是不是很有名?”,这句话不加入任何信息。那么 A 和 B 都完全知道 B 的回复内容。那么传送信息就简单了,可以用大语言模型将 B 的回复内容加入信息,比如通过声调的变化。外界不知道 B 原本要回复的内容,所以它解密不出来,但是 A 是知道的,所以,它相当于有一副原本,可以发现 B 的回复内容有哪些修改,进而解密。
现在,A 和 B 已经进行了一轮对话,怎样继续呢?可以在 B 的回复后面,加上一句隐藏的提示词“请继续 A 的提问”,驱动大语言模型继续给出 A 的问话。
然后 A 就可以在大语言模型给出的回复里面再加入信息给到 B 了。
57 天前
回复了 nb85144 创建的主题 生活 感觉自己被监控了,想不通问题出在哪里
写过一个简单的爬虫,用本机+家庭网络,爬取「汽车之家」的汽车数据。然后第二天,微信公众号的信息流里面,10 条里面有 5 条是汽车。

我搜索一些知识,在中文互联网留下过足迹后,比如知乎、搜狐、博客园等等吧,**一定**会在公众号的推荐里面,找到跟它相关的,哪怕是非常冷门的知识,比如我对苏秦读的「阴符经」很好奇,就在中文互联网搜索浏览了一番,果不其然,后面微信公众号的信息流里面就出现了标题为「天之至私,用之至公」这句阴符经里的话。这还要用什么「孕妇效应」「注意力效应」来解释,未免有些牵强。

其实要验证很简单,一个很简单的方案:
1. 分阶段的,在中文互联网集中阅读不同的主题,同一时期,只阅读一个主题。比如 7 天换一个阅读主题。
2. 使用自动化技术,刷微信公众号的信息流,并记录下推荐的所有文章
3. 统计上述的阅读主题、推荐文章的关联关系。
58 天前
回复了 nightnotlate 创建的主题 生活 你们真能遇到傻 x 一笑而过吗
我也跟 OP 一样,眼里容不得沙子。不过,愤怒还是要克制的,我想到的一个办法是:自学法律。

这样遇到事情的时候,会先从法律上考虑:
1 是击败对方的嚣张气焰,
2 是采取法律行动(言语)也是作为愤怒爆发的一个缓冲,
3 是让自己时刻记得冲动的法律后果。

不过我也是最近才有这样的想法,分享给楼主。
58 天前
回复了 BinCats 创建的主题 生活 分享一次我用 Google gemini 维修家电的经历
我让 AI 帮我修的是电视,也修好了: /t/1124981
60 天前
回复了 daodaolicai 创建的主题 推广 活钱 03| 4 招应对借钱,守住你的钱包
倒数第 2 张图片,还钱的场景,图片容易混淆~~每个人的衣着应该不变,变的应该是动作,而不是反过来。
A 级 > B 级 > C 级 > D 级 > E 级。
会高等级技能的,肯定会低等级技能。目前的 AI ,假设为 C 级。

E 级人类 + C 级 AI:
===>AI 如果可以像 Claude Opus 4 一样持续 N 天工作,C 级任务 OK ,A 级 B 级任务 Failed !
===>AI 如果像 Cursor 一样无法持续工作,E 级任务 OK ,A 级 B 级 C 级 D 级任务 Failed !

C 级人类 + C 级 AI:
===>平添 N 个同级别组员!但局限在 C 级任务。

A 级人类 + C 级 AI:
===>AI 如果像 Claude Opus 4 一样持续 N 天工作,给它定义好架构和框架,简直太爽了!平添 N 个下手。
===>AI 如果像 Cursor 一样,还需要时不时盯着,那就是拖后腿,需要再招 N 个 C 级人类来盯梢 AI 。

这样定量一分析,情况就很清楚了。
曾经我也这么想。不过,后来想到,「大」和「复杂」是两回事。一个生命相比一个星系,未必逊色多少。

假如只有地球上有生命,那么每个人都是宇宙中的一个星系。
假如其他地方也有生命,那么每个地球人仍然是独特的样本。

所以,用渺小、短暂来麻痹自己的意识,其实是一种逃避。我是不是太不近人情了。(囧
从个人的需求出发,比较省力吧。因为每个人其实都「不是一个人」,而是代表的是一群人。马云都能找到跟他长得像的小马云。满足了个人的需求,就满足了一群人的需求。自己想要的东西,在目前的市场上找不到,这本身就是一种需求,有了这个,都不需要做需求调研了,非常省力。比如我找不到这样的工具,那就只好自己做: /t/862672

挖掘别人的需求,那可难多了。
借助大语言模型来学习外语的 brilliant 的 idea 。
现在对使用者的“语言边界”的探测,用的是什么方法呢?我没看到有涉及到用户交互的地方。感觉这块是很关键的。
Cursor 这个编程工具,专门训练了一个大模型,来预测用户 Tab 的下一个目标。😂
74 天前
回复了 sillydaddy 创建的主题 程序员 Cursor 开发的过程实录
@qq1147 确实是,agent 要跟它明确说先不要改。
@sentinelK 尤其是加上测试用例后效果更好。
@bbao 目前还没试过用 AI 搭框架,不过代码里很多基础的方案确实是 AI 提出候选方案然后我来选择的。
有一个高频质疑你好像没有回应:成本。

```
收入( Revenue / Sales )

├─ 减:销售成本( COGS )
│ └── 得到:毛利润( Gross Profit )

├─ 减:运营费用(管理、销售、研发等)
│ └── 得到:经营利润( Operating Profit )

├─ 减:利息、税收、投资损益等
│ └── 得到:净利润( Net Profit )
```

2024 年​​美团单均经营利润提升至 ​​1.4 元/单( 2022 年为 1.05 元/单, 2023 年 1.2/单)。
换句话说,一单外卖,不算扣税,美团股东能到手 1.4 元。
假如美团向商家和消费者收取了 30%费用,里面除了 1.4 元,都是成本:配送、客服履约、管理、销售、研发。
而扣完税之后的净利润率,大概 2%,也就是一单价格的 2%是给到美团股东的利润。


另外,我想到一个很有意思的问题。
前一阵美国的编剧和演员工会,与影视制片人联盟间出现劳资纠纷,前者要求后者支付流媒体的重播费。
我很好奇这种怎么在线上达成妥协和合约。这肯定是要组织起来,以集体的名义去讨价还价的,各自为战不可能达成平衡。
而中国是绝对不会允许这种有组织的情况出现的,无论是线上还是线下。
1 ... 3  4  5  6  7  8  9  10  11  12 ... 113  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5343 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 77ms · UTC 08:39 · PVG 16:39 · LAX 01:39 · JFK 04:39
Developed with CodeLauncher
♥ Do have faith in what you're doing.