有人(个人)自己使用开源的 LLM 大模型吗?

2024-01-19 13:53:28 +08:00
 yuyue001

现在自己部署使用 SD 的比较多。

但是部署 LLM 的有没有?

开源的 LLM 大模型,一个比一个能吹牛,实际使用体验怎么样?

14527 次点击
所在节点    Local LLM
66 条回复
BQsummer
2024-01-19 17:54:53 +08:00
如果要达到 ChatGPT 3.5 的水平, 参数至少要 70B 以上, 哪怕是 4bit 量化, 也需要 40G 以上的显存, 家用 GPU 带不起来; 7B 的模型用起来感觉就是玩具.
june4
2024-01-19 18:18:06 +08:00
我用来跑文本分类,7b 5bit 足够了,但没 gpu 确实慢,我在老机上 10 多秒才分类一个文章标题和简介,比别的方案慢太多
siriussilen
2024-01-19 18:41:44 +08:00
@Azure99 基于 yi sft 的吗? 这个微调 llm 有足够 solid 的评估吗?
yplam
2024-01-19 18:59:07 +08:00
基本上所有中文大模型都测了个遍,主观上最好的是 baichuan2 13b ,其次 chatglm ,yi 评分虽然高,但感觉应该是过拟合或者训练数据不行
kaichen
2024-01-19 19:12:25 +08:00
本地跑个 mixtral 替代 chatgpt-3.5 问题不大,可以拿来替代 Immersive Translate 的翻译引擎,用 LM Studio 启动假扮 openai 接口

还有对一些无规则文本的处理,可以用 7b mistral 给 prompt 处理得到结果,比如分类,提取关键信息
swulling
2024-01-19 19:13:13 +08:00
@yplam yi-34B 的 sft 数据有问题,建议用衍生版本。模型的基础效果还是不错的。


比如 SUS-Chat-34B
swulling
2024-01-19 19:14:19 +08:00
目前中文开源大参数模型里,效果最好的是 Qwen-72B 和 Deepseek-67B 。

可惜哪怕是 int4 量化,也需要 50GB 显存才能部署。
Azure99
2024-01-19 19:20:41 +08:00
@siriussilen demo 是 yi 34b base 做 sft ,推理 demo 4bit 量化过。未量化版本 mtbench 7.30 ,alignbench 5.93 ,至于评估的严谨度,这种 llm as judger 只能做个参考 更多的反应的是是否符合裁判员模型的偏好。

像那些 ceval mmlu 之类的选择题任务,已经没有评估的意义了,很多"高分"的模型(或者说绝大多数国产模型)都是通过预训练阶段加评估集实现的,然后公关说是无意的语料泄露,懂得都懂。
levn
2024-01-19 19:22:29 +08:00
使用 Mac Studio 192GB 统一内存甚至能运行 180B 模型
cwcc
2024-01-19 19:23:10 +08:00
有人测试过需要大显存的模型直接使用超大内存可以跑吗(买不了显卡我还买不了内存?)
Azure99
2024-01-19 19:36:35 +08:00
@yplam yi 的 base 模型还是不错的,但是对齐的时候可能用了大量 cot 数据,导致做一些需要直接输出的任务很差,比如抽取?也会给你先分析一通,基本不可用
siriussilen
2024-01-19 19:46:33 +08:00
@Azure99 为什么用大量 cot 数据会导致直接输出的任务很差啊? 如何定义“直接输出任务”吗? QA 问答么?
Azure99
2024-01-19 19:56:17 +08:00
@siriussilen 举一个例子
SFT 标注数据
inst:泰山和嵩山哪个高?
output1:泰山的海拔高度为 1545 米,而嵩山的海拔高度为 1491.71 米。因此,泰山比嵩山高。
output2:泰山高。
在这种需要多步推理的任务中,output1 实际上是更易于模型推理的,然而,如果训练数据中都是这种 target ,甚至在指令中明确要求了不要输出无关内容,但依旧标注了推理链路,就会造成下面这种不遵循指令的情况。(本质还是数据样本不够均衡)

推理
inst:请判断下面的评论是好评还是差评,好评输出 true ,差评输出 false 。评论:真难看,不推荐购买
output1:"真难看,不推荐购买"有明显的消极观点,因此是差评,所以,输出 false 。
output2:false
假设我们的业务只需要 true 或 false ,那么 output1 实际上不可用。
YsHaNg
2024-01-19 20:12:19 +08:00
我在树莓派上跑了羊驼 7b
eternitym31
2024-01-19 20:54:01 +08:00
qwen-14B ,4bit 量化之后损失不大,有块 16GB 显存的卡就可以部署了。
siriussilen
2024-01-19 20:57:01 +08:00
@Azure99 我不认为是 cot 有问题,我认为是 sft 的数据配比及多样性有问题,导致在下面 case 中
“inst:请判断下面的评论是好评还是差评,好评输出 true ,差评输出 false 。评论:真难看,不推荐购买
output1:"真难看,不推荐购买"有明显的消极观点,因此是差评,所以,输出 false 。
output2:false”
模型丧失了指令遵循的能力
vToExer
2024-01-19 21:01:19 +08:00
TL;DR
1. Qwen, baichuan, yi, deepseek coder:这些被认为是比较优秀的开源大模型。其中,baichuan 和 yi 被多次提及,且 baichuan2 13b 被认为是表现最好的。Qwen-72B 和 Deepseek-67B 被认为是目前中文开源大参数模型里,效果最好的。
2. BlossomLM:这是一个 v 友自己微调的 LLM ,主要提供一套公开的 SFT 数据。
3. ChatGLM, ChatGLM3:被提及并推荐。
4. Ollama:一个可以本地部署 LLM 的平台,包括 Llama 2, Code Llama 等模型。
5. Mixtral:可以本地运行,替代 ChatGPT-3.5 ,用于替代 Immersive Translate 的翻译引擎。
6. Llama 7b 和 13b:一些 v 友认为这两个模型的效果不太好。
7. Yi-34B:有 v 友认为其 SFT 数据有问题,推荐使用衍生版本,如 SUS-Chat-34B 。
Azure99
2024-01-19 21:09:37 +08:00
@siriussilen 是的,我已经强调了本质还是数据样本不够均衡。怀疑他们的数据是蒸馏 chatgpt 搞出来的,蒸馏的时候无脑加了 think step by step ,又没有仔细的人工审查
lyping
2024-01-19 21:11:04 +08:00
@Azure99 Demo 很牛了。。请问 blossom-v4-yi-34b 部署需要什么级别硬件
Azure99
2024-01-19 21:35:29 +08:00
@lyping 能不能跑起来基本只跟显存有关,34b 的模型 4bit 量化后,24G 显存勉强能跑起来,但量化毕竟是有精度损失的。消费级硬件 3090 性价比最高,一张不够就两张,两张不够就四张。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1009988

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX