有人(个人)自己使用开源的 LLM 大模型吗?

2024-01-19 13:53:28 +08:00
 yuyue001

现在自己部署使用 SD 的比较多。

但是部署 LLM 的有没有?

开源的 LLM 大模型,一个比一个能吹牛,实际使用体验怎么样?

14526 次点击
所在节点    Local LLM
66 条回复
skyqqcc581
2024-01-19 13:58:17 +08:00
自行部署的性价比太低了 一个机器的成本 几千 上万 大点的模型 可能得几万才行!

还需要维护 并且现阶段的开源模型,可能连 Gemini Pro 和 GPT3.5 都打不赢

个人部署实在没必要 除非是要实现某些商业目的 训练出某些专用得
Azure99
2024-01-19 14:01:41 +08:00
开源大模型比较不错的有 qwen baichuan yi ,也有领域特化的,像 deepseek coder 这种。
具体看你是什么任务,如果是比较简单的问答 文本生成,或者传统 nlp 任务,又或者你希望在下游微调一些特定任务,那么开源模型是能不错的完成的,但是代码和数学与 gpt 3.5 有明显差距。

另外推荐一下自己微调的 LLM ,主旨是提供一套公开的 SFT 数据(因为目前大部分中文开源模型只公开了权重,但是训练数据,尤其是指令对齐的数据并不公开,导致从 Base 到 Chat 的复现有一定难度)
https://github.com/Azure99/BlossomLM
在线 Demo
https://blossom-chat.com/
jr55475f112iz2tu
2024-01-19 14:06:17 +08:00
有请 @ShadowPower
yuyue001
2024-01-19 14:06:34 +08:00
@Azure99 厉害了。

请问你的硬件配置是什么样子?
yuyue001
2024-01-19 14:07:21 +08:00
@skyqqcc581

确实门槛比较高,但是性价比不高。
Azure99
2024-01-19 14:11:51 +08:00
@yuyue001 可以选择租卡,训练的话,4090 24G 显存用 lora 就足够微调 7b 甚至 13b 的模型了,一小时不到两块钱,a100 40G 也就 4 块钱,还是可以接受的
lstz
2024-01-19 14:16:01 +08:00
性价比太低,不如直接调阿里云的 api ,限时免费
Yuhyeong
2024-01-19 14:22:24 +08:00
chatglm
Azure99
2024-01-19 14:28:06 +08:00
@skyqqcc581 @lstz 具体还是要看场景的,举个极端的例子,假设是离线跑批量预测的场景(例如生成文章),那么你用 vllm/tgi 一张 4090 推理 7b 的模型,是几乎能达到千 token/s 的,那么一小时能生成 3600k token ,成本只有两块钱,而阿里云上 7b 的模型跑这么多 token 需要花 0.006 * 3600 = 21.6 元。
另外,假设你需要微调模型的生成风格,直接用 API 也是无法做到的。
L13
2024-01-19 14:44:01 +08:00
自己部署几乎都是为了个性化微调或者突破 API 的限制,就像推动 SD 发展的很大一股力量是为了搞瑟图,自己玩玩的话一块 4090 推理开源的 LLM 几乎都够了
stimw
2024-01-19 14:54:09 +08:00
@Azure99 #5 llama 7b 和 13b 我觉得效果还是不太好
lstz
2024-01-19 15:01:00 +08:00
@Azure99 感谢计算,我最近也有个开源项目要接入大模型,让我思考一下
Azure99
2024-01-19 15:01:40 +08:00
@stimw 因为 llama 在预训练的时候并没有多少中文语料 中文 ppl 会非常高,所以中文任务最好用国产的预训练模型
ShadowPower
2024-01-19 15:05:44 +08:00
@czfy 我觉得 @Azure99 说得挺好的
Giftina
2024-01-19 16:15:58 +08:00
本地部署 llm 可使用 ollama https://ollama.ai/ ,有一众 llm 可用 https://ollama.ai/library ,可搭配 ollama-webui 使用 https://github.com/ollama-webui/ollama-webui
ktyang
2024-01-19 16:16:06 +08:00
同样有需求,领导让给行政他们搞个,怕泄露信息还得是内网用的,插个眼回头来抄作业~
shm7
2024-01-19 16:22:25 +08:00
Giftina
2024-01-19 16:28:48 +08:00
,我实测在 MacBook Air M1 16G 环境中使用了一些 7b 、10b 、13b 模型,出字效率从高到低,都可以接受,极限基本上是 13b-q6 ,再大一些的模型会出现 oom 无法使用的情况
QlanQ
2024-01-19 17:13:39 +08:00
@Giftina #18 是不是跑了这些模型,电脑就其他什么都干不了了?
Giftina
2024-01-19 17:47:46 +08:00
@QlanQ ollama 本质上和常规软件没有区别,放在后台没有什么感知,跑 llm 模型的时候别的事情也正常能干。除了 13b 的内存占用比较大,除此之外,我个人觉得没有电脑可感知的卡顿。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1009988

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX