配置小主机跑大模型

在下目前有个蜗牛黑群辉，j1900 ，搞一些小东西还是够用的；新年伊始，想着整个小主机玩玩，配置稍微高一点，主要是想 ALL IN ONE ，大佬们有啥配置建议没；预算 1000 到 2000 左右。还有一点是想在小主机上跑个低配的那种大模型，只要输入一段文字能检索出关键信息、关键字等等这些功能就行，不需要复杂功能。求兄弟们支招哇。

wxd21020

2024-02-18 10:25:42 +08:00

@ShadowPower 那是不是可以等等，感觉也就是热乎劲儿，主要还是没有持续的需求

ShadowPower

2024-02-18 10:35:19 +08:00

@wxd21020 可以先玩玩线上的服务，或者用目前的主力机来跑。如果确实没有需求，其实很快就玩腻了，还能省一笔钱。

其实我也觉得等将来手机本地运行的方案成熟了以后再买会更好。很可能到那个时候，就算是非常低端的处理器，也有这方面的硬件加速，或者根据这种场景做专门的优化了。

Puteulanus

2024-02-18 10:44:02 +08:00

<amp-youtube data-videoid="jNWwEqTk5bY" layout="responsive" width="480" height="270"></amp-youtube>

reeco

2024-02-18 10:51:48 +08:00

@ShadowPower 在我的 7950x 上面，llama.cpp avx512 有大约 10%到 20%的提升

wclebb

2024-02-18 11:16:09 +08:00

虽然很奇怪，但如果真想专门跑模型，Mac 8G 说不定也能跑。
因为 10 核心 16G 能跑。

reeco

2024-02-18 11:20:13 +08:00

@wclebb 能跑，7b 量化到 2bit ，iPhone 15 Pro 上就能跑了，但没什么用，模型上限太低了

Greendays

2024-02-18 13:12:59 +08:00

这预算只能捡垃圾吧，看看二手的 P106 和 P40 一类的显卡，这些显卡必须要配合核显是用，坑不少，可靠性也不保障。

elegantwolf

2024-02-18 14:07:18 +08:00

确实，16g 甚至 24g 的 Mac mini 大概可以满足你的需求，但是需要额外配置非 cuda 的环境，以及没法用 docker ，我买了一台 16g 的 Mac mini 想试着跑跑，但是因为很难环境隔离，一直没下定决心去污染整个环境，。。。

Jiajin

2024-02-18 15:44:37 +08:00

新鲜劲会很快过去了，因为现在开源本地大模型肯定是比不过 chatgpt 的，除非有明确需求

Revenant

2024-02-18 16:32:45 +08:00

树莓派 4B 跑量化 llm ，1 tokens/s ，这速度谁受得了啊😂😂

winson030

2024-02-18 18:40:15 +08:00

@wxd21020 有独显，那就上支持 oculink 的小主机，可进可退，完美😍

ShadowPower

2024-02-18 18:43:39 +08:00

@elegantwolf 也许可以试试 LM Studio ，玩腻了能删得比较干净

Ayahuasec

2024-02-18 22:49:28 +08:00

我在用 N100 的小主机跑 q4km 量化的 14b 的 qwen ，机器装了根 32G 的内存，效果还可以，就是速度大概只有 2-3 tokens/s ，而且跑的时候风扇狂转

laminux29

2024-02-18 23:18:46 +08:00

1.有信息保护的场景，才需要自己买服务器跑大模型，其他场景完全没必要。

2.现在 OpenAI 的 GPT4 （离线版）、MS Copilot （联网版）和 Google Gemini （联网版）之外，其他的各种 AI ，质量真的是差，完全没私有化部署意义。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1016094

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.