有没有产线拿 llama.cpp 跑大模型的案例？

2024-05-18 18:28:57 +08:00

wencan

可能是我做过三年的优化重构，又主持过一些创业项目，特别重视节能减排。
我拿 llama.cpp 在集显笔记本上跑 llama3 中文-4bit ，毫无压力。
准备将来有机会产线也这么干。
求问有没有这样的产线案例，服务器是怎么样的，体验如何？

1375 次点击

所在节点

2 条回复

june4

2024-05-18 18:34:48 +08:00

多大的模型，我的闲置老机上用 cpu 跑好慢，本来想用于给文章打标签，全文是肯定不行，但哪怕就标题和简介，也要要 20 秒一个。

gaobh

2024-05-18 18:38:19 +08:00

得看有多少人访问，并发 token 多少，再决定上多少 gpu 服务器

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.