V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  shuimugan  ›  全部回复第 1 页 / 共 26 页
回复总数  501
1  2  3  4  5  6  7  8  9  10 ... 26  
brave 浏览器自带这个功能
怕被运营商制裁那就先传到运营商做的网盘服务,然后开个阿里云同城的 200MB 峰值带宽的轻量云机器来跑网盘客户端中转咯
12 天前
回复了 tbphp 创建的主题 Claude 低成本爽用 Claude Code: GPT-Load + CCR 方案
比较折腾而且和模型要适配,我测了 Claude Code 结合本地的 GLM-4.5-Air 、Qwen3-235B-A22B-Instruct-2507 、Qwen3-Coder-30B-A3B-Instruct ,经常会消耗了几十 K 的 token 但是活都没开始干,不能一个 prompt 就让它“自己动”完成所有事情,连把大模型给的代码写入文件都做不好,同样的 prompt 丢到 Roo Code 就不同了,结合上面几个本地跑的模型完成度非常高,人工干预极少
@BingoXuan 24 小时输出的话,库克和阿里都亏麻了
最佳性价比就是蹲苹果官方翻新的 Mac Studio Apple M3 Ultra 芯片 512GB + 1TB 版本,价格 6.3w ,24 期免息每个月 2.6k ,然后跑 Qwen3-Coder-480B-A35B-Instruct ,5bit 量化速度 19token/s 左右,一天可以输出 150w 左右的 token ,约等于调用价值 400RMB 的官方 API 。
18 天前
回复了 GaryLee 创建的主题 程序员 目前最好用的 AI 补全插件是哪个?
等预计今天发布的 Qwen3 Coder 30B-A3B 结合 https://www.continue.dev/ 本地部署
26 天前
回复了 yuyue001 创建的主题 程序员 阿里发布代码模型 Qwen3-Coder
根据 Qwen 系列的一贯表现,大杯模型和超大杯模型的差距很小,等个 Qwen3-Coder 其它尺寸的模型本地部署玩玩。

目前这个尺寸的模型跑 4bit 动态量化也要 270GB 的 vram ,前几天 M3 Ultra 512GB + 1T 的官方翻新突然有货,只要 6.3w ,免息分 24 期一个月只要 2600+,还能找点员工渠道折扣更便宜,拿来本地部署一个接近 Sonnet 4 的编码模型往死里用其实挺划算
54 天前
回复了 liuhai233 创建的主题 程序员 cloudflare containers 来了, 真不错
@liuhai233 以 basic 这档 1GiB 内存、1/4 CPU 和 4GB 磁盘规格的 instance 为例子,如果是长期运行的话

一个月 = 30 天 x 24 小时 x 每小时 3600 秒 = 2592000 秒
内存的免费额度:25 GiB-小时 = 25 × 3600=90000 秒
超出的部分就是(2592000 - 90000) * 1GiB 内存 * $0.0000025 = $6.255

同理,CPU 额度超出部分就是( 2592000 秒 - 375 分钟 * 60 秒)* 1/4 vCPU * $0.000020 = $12.8475

磁盘额度超出部分就是( 2592000 秒 - 200 小时 * 3600 秒)* 4GB 磁盘 * $0.00000007 = $0.52416

一个月接近$20 ,从目前文档看,容器的 IO 等待时间也是计算在内的,而 worker 的 IO 等待是不计费的,这个可以说是最显著的区别了,所以想用的话得识别好业务的实际形态
54 天前
回复了 liuhai233 创建的主题 程序员 cloudflare containers 来了, 真不错
从定价上来说其实很贵,如果长时间运行的话比同配置包月的 vps 和云服务器贵上非常多(当然流量还是比各种云服务便宜很多,云厂商普遍 0.8 元/GB 的国际流量,它在付费计划里有 1TB 的默认额度)。这种 serverless 赌的就是你会不会长期运行。
没啥意义,qwen3-30B-A3B 的 4bit 量化在 M2 Ultra 上以 85 token/s 的速度秒了这一题,显存占用 18GB 左右。
prompt:从架构师角度分析这个问题"js 不使用 promise 完成一个 sleep 函数,必须支持 await 调用,还要能在浏览器使用",本地不跑大模型可以去官网 https://chat.qwen.ai/

当你掌握很多门语言之后,就知道那些屎一样的临时过渡方案就知道压根没必要看,JavaScript 的 async/await 都是抄 2012 年 C#发布的 5.0 语法,而且还没一次性抄对,中间搞那个 yield 恶心方案和过渡的 promise 方案,当时很流行的库有 co/bluebird/async 不知道有多少人记得。到了 2017 年 6 月 async/await 才正式并入规范,而 2017 年 5 月 Node.js 8.0 都正式支持 async/await 了,之前 6.x 都能通过参数开实验性支持了。

我从 8.0 开始用 Node.js ,当时直接上 TypeScript 写后端,根本懒得吃那些设计缺陷造的屎,原型链和这种 then 地狱风格的代码压根没写过一行,项目规范都禁止写这种代码。

至于你补充那个 python 例子,和异步也没啥关系,就一个默认递归深度,在带 GC 的语言中敢写递归之前不看限制或者有没有尾递归优化吗?
早期 sublime text 用多了,现在都是统一 sublime text 风格
@also1412 OrbStack 不能用来长期做服务,因为它要定时联网检测来判断你的用途,我之前就碰到了代理配置错误但是因为平时丢角落里跑 LLM 所以也没发现,偶尔 vnc 连上去管理,某一次才发现 OrbStack 弹了个提示说联网失败,然后说我的用途有问题,所以自己退出了
用 LM Studio ,配合 MLX 和 DWQ 量化(最新的一个量化方法,质量很好)很不错,开 KV Cache 也方便,我拿 M2 Ultra 跑 Qwen3-30B-A3B-DWQ 的 4bit 版可以到 105token/s ,Qwen3-235B-A22B-DWQ 的 4bit 版本也能到 32token/s
96 天前
回复了 cj323 创建的主题 Node.js 吐槽一下 bun
bun 确实不稳定,有一些号称兼容了 node 的 api 其实还没兼容,加密库和文件流这块目前还有问题,我测试 exceljs 经常生成不了文件,http 库也有一个和 deno 一样的问题就是不支持 connect 事件,不知道是不是本身单元测试就有问题。

内存占用也有问题,同样的代码在 windows 下占用一百多 MB 内存,去到 linux 只占用 7MB…倒是 bun 内置那些函数库非常实用。其实碰到兼容性的问题如果能拆成独立小 api 用 node 或者 deno 去部署的话倒也还能接受,我就拆了 2 个这样的 api 。

deno 就很稳,拿来替代 node 一点问题都没有。

node 从 15 到现在的 24 都没啥吸引人的新特性,绝大部分都是缝缝补补,被 deno 和 bun 追上那是一点都不冤枉。
hk 节点拖了几个 T 的对象存储数据回来,没感到限速
106 天前
回复了 ysicing 创建的主题 美酒与美食 最近再喝冷泡茶, 有没有好的推荐?
绿茶系都可以,我一般是用狮峰的龙井或者茉莉,比例是 8 克茶叶一升水,如果泡 2 天以上可以减少 1 到 2 克茶叶,只要容器干净可以在冰箱放 2 周。
155 天前
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
@mewking pcie 通道速度不会降低多少性能,现阶段 ExoLabs 的方案是靠网络通信都能玩,推理模型交换数据挺少的,刚好新鲜出炉一个部署案例 https://www.bilibili.com/video/BV1FvQrYQEPc
164 天前
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
@mkdirmushroom
@jqknono
我的 Mac Studio 就是 192GB 的 M2 Ultra ,对于 M3 Ultra 跑 deepseek V3/R1 的速度我意见和 33 楼一致,最多是随着上下文越大速度不断衰减
1  2  3  4  5  6  7  8  9  10 ... 26  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3005 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms · UTC 13:35 · PVG 21:35 · LAX 06:35 · JFK 09:35
Developed with CodeLauncher
♥ Do have faith in what you're doing.