mili100 最近的时间轴更新
mili100

mili100

V2EX 第 185096 号会员,加入于 2016-08-02 22:05:55 +08:00
根据 mili100 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
mili100 最近回复了
开一台虚拟机,然后 noVNC
@coefuqin 我的工作站是 3090 单机单卡,用不到 Tensor Parallelism 。Ollama 的模型管理非常方便只需要 `ollama run`就搞定了,我也希望生成一些 Rejected 用的垃圾还要花上几十分钟来搭环境。我觉得 Ollama 很适合我的用例,所以什么不呢。
对于使用 API 开发应用,也许目前质量和性价比的最佳平衡还是 Deepseek-V3-0324
39 天前
回复了 laijh 创建的主题 Local LLM 个人电脑,适合跑哪个本地大模型?
内存足够的话也许试试看 Qwen3:30B-A3B ,激活参数仅 3B ,品质接近 32B (虽然对于 16G ,iQ2 UD 量化可能都有些捉襟见肘)
62 天前
回复了 idblife 创建的主题 Local LLM 有没有能 mac 上直接跑的多语言翻译 LLM?
@gzlock 意指站在巨人的肩膀上,或者是羊驼的背上(?

@musi Ollama 从 [v0.1.33]( https://github.com/ollama/ollama/releases/tag/v0.1.33) 开始就已经支持并发和同时加载多个模型了,已经足以能够胜任一些中小规模的生产环境了
148 天前
回复了 jhytxy 创建的主题 Local LLM q4 量化的大模型能比原版全精度的差多少?
167 天前
回复了 mrleft 创建的主题 Local LLM ollama 如何手动下载模型?
199 天前
回复了 abc634 创建的主题 Local LLM 请教,关于显卡内存
也许可以尝试下 Ollama/llama.cpp ,没有显卡但是有高性能 CPU 纯 CPU 推理只要有足够的许多模型都能够运行的,特别是对于激活参数较小的 MoE 模型(比如 Deepseek )。
在我的环境下( R9 7945HX + 96G RAM ) Deepseek-v2.5-1210 IQ2_XS 能有几到十几的 TPS ,奈何没有更大的内存,我觉得只要有 256G RAM Q4_0/Q4_K_M 也许也是没有问题的。
在 X 上也有人纯 CPU 成功运行起来了 Deepseek-v3 而且似乎还不错: https://x.com/nisten/status/1877276141905387565
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2845 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 03:59 · PVG 11:59 · LAX 20:59 · JFK 23:59
Developed with CodeLauncher
♥ Do have faith in what you're doing.