有人用 4070、4060 显卡的笔记本测试过跑 llama3,问问题,或者读取文档做总结,需要多长时间吗?

2024-05-26 20:55:34 +08:00
 godqueue

有人用 4070 、4060 显卡的笔记本测试过跑 llama3 ,问问题,或者读取文档做总结,需要多长时间吗?

4276 次点击
所在节点    程序员
31 条回复
godqueue
2024-05-27 10:12:54 +08:00
@rabbbit 我用 llam3:8b 输出的和 lrigi 一样。。应该是正确的吧
godqueue
2024-05-27 10:13:45 +08:00
@lrigi 哈哈。。我知道 llama3 默认是 8b,你们说的 4bit 不懂。。。fp16 也不懂。。还得回炉学习下。。
looveh
2024-05-27 10:14:21 +08:00
macM1 跑 8B 都有点卡,我试了一下服务器上的 3090 ,跑 8B 完全没问题,跑 70B 也很卡
godqueue
2024-05-27 10:17:29 +08:00
你们不会拿笔记本显卡跑 70b,如此大模型吧。。
rabbbit
2024-05-27 10:40:59 +08:00
@godqueue
没错,能输出长宽就是符合要求的。
可以按小时租 gpu ,便宜的几块钱一小时,不用的时候关掉。
Ayahuasec
2024-05-27 10:57:00 +08:00
@godqueue 现在软件兼容性上,AMD 和 Intel 没有太大区别吧。我感觉支持 AVX 然后内存带宽不差、内存容量够的话,CPU 跑起来 int4 的 14b 左右的模型,虽说不算快但是起码可用了。

虚拟机的话主要考虑 GPU 能不能直通进去,或者虚拟机内部要能调用到主机的 CUDA ,不然 GPU 加速跑不起来。
godqueue
2024-05-27 11:28:29 +08:00
@rabbbit 还有这种业务,非常棒,适合我~~~我之前看阿里云啥的都贵的要死。。
godqueue
2024-05-27 11:28:47 +08:00
@Ayahuasec 嗯。。看来也可以考虑 AMD 的 cpu 了~~~
kenvix
2024-05-27 12:06:53 +08:00
@beginor #19 我指的是对模型表现
bibi012
2024-05-27 14:20:07 +08:00
同问, 一直想自己搭环境
Charon2050
2024-05-27 16:35:26 +08:00
外行人有个疑问,能不能用时间换空间,不考虑速度的情况下,在小内存的机器上跑 70b 之类稍大的模型呢?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1044111

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX