有人用 4070、4060 显卡的笔记本测试过跑 llama3，问问题，或者读取文档做总结，需要多长时间吗？

有人用 4070 、4060 显卡的笔记本测试过跑 llama3 ，问问题，或者读取文档做总结，需要多长时间吗？

godqueue

2024-05-27 10:12:54 +08:00

@rabbbit 我用 llam3:8b 输出的和 lrigi 一样。。应该是正确的吧

godqueue

2024-05-27 10:13:45 +08:00

@lrigi 哈哈。。我知道 llama3 默认是 8b,你们说的 4bit 不懂。。。fp16 也不懂。。还得回炉学习下。。

looveh

2024-05-27 10:14:21 +08:00

macM1 跑 8B 都有点卡，我试了一下服务器上的 3090 ，跑 8B 完全没问题，跑 70B 也很卡

godqueue

2024-05-27 10:17:29 +08:00

你们不会拿笔记本显卡跑 70b,如此大模型吧。。

rabbbit

2024-05-27 10:40:59 +08:00

@godqueue
没错，能输出长宽就是符合要求的。
可以按小时租 gpu ，便宜的几块钱一小时，不用的时候关掉。

Ayahuasec

2024-05-27 10:57:00 +08:00

@godqueue 现在软件兼容性上，AMD 和 Intel 没有太大区别吧。我感觉支持 AVX 然后内存带宽不差、内存容量够的话，CPU 跑起来 int4 的 14b 左右的模型，虽说不算快但是起码可用了。

虚拟机的话主要考虑 GPU 能不能直通进去，或者虚拟机内部要能调用到主机的 CUDA ，不然 GPU 加速跑不起来。

godqueue

2024-05-27 11:28:29 +08:00

@rabbbit 还有这种业务，非常棒，适合我~~~我之前看阿里云啥的都贵的要死。。

godqueue

2024-05-27 11:28:47 +08:00

@Ayahuasec 嗯。。看来也可以考虑 AMD 的 cpu 了~~~

kenvix

2024-05-27 12:06:53 +08:00

@beginor #19 我指的是对模型表现

bibi012

2024-05-27 14:20:07 +08:00

同问，一直想自己搭环境

Charon2050

2024-05-27 16:35:26 +08:00

外行人有个疑问，能不能用时间换空间，不考虑速度的情况下，在小内存的机器上跑 70b 之类稍大的模型呢？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1044111

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.