现在训练一个垂类模型的成本大致是多少？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 171 天前的主题，其中的信息可能已经有所发展或是发生改变。

CURD 工程师，纯模型训练外行。想请教下目前训练一个垂直领域的 AI 机器人模型，大致成本分布是什么样的呢？数据层面公司有很多，包括文字、图片，视频。训练流程应该包括哪些方面的成本呢？（我只知道需要 gpu ）。请大家不吝赐教。当然也可以花钱让别的公司给训练(主要还是数据不想交出去)，靠谱的渠道公司一般会如何报价呢，交付流程又是什么样呢。(公司没有大模型团队)。

垂类模型

成本分布

GPU

23 条回复 • 2025-06-28 00:41:55 +08:00

KenThompson1729

171 天前

具体什么任务预算能有多少

younger027

171 天前

@KenThompson1729 语言教学，预算不限，1kw rmb 左右都可以接受。这个价格只是随口一报，如果效果好，预算也可以提

chy2v

171 天前

主要是你想达到什么效果，有什么要求

106npo

171 天前 via Android

你这预算都可以直接联系一手厂商，智谱阿里之类的都行。他们来你本地安装服务器协助训练。报价是服务器购买或租赁价格和工程师费用。

frandy

171 天前

我能想到的训练流程应该包括哪些方面的成本:
1 、硬件成本（ GPU ）
2 、人力成本（虽然有很多数据，但是喂给模型的数据需要进行整理）
3 、维护成本（肯定要迭代更新吧）
都预算不限了，那就看在这个垂类行业效果了，一开始训练一个参数集小的垂类模型，试试水，根据具体业务情况进行调整，觉得不错了，再扩大数据集。

KenThompson1729

171 天前

@younger027 语言教学这个题目太大了，如果能具体细化到功能比如说口语打分，实时陪练，写作批改那还可以估计一下具体的成本

penzi

171 天前 via iPhone

根本就不要训练，调 prompt ，调 tools 调用

helone

171 天前

@younger027 真有 1kw rmb 预算直接联系阿里云这种厂商，会有人一对一对接的

younger027

171 天前

@chy2v 能充当一个 AI 教辅的职责，下面那个哥们说的，口语打分，纠音，实时陪练，写作批改这些都希望有。是不是又得在这些里面细分更垂类的模型呢。专家小模型？

younger027

171 天前

@xmumiffy 明白，直接就驻场了是吧。那费用呢，比如说半年内要个可用的模型，应该报价多少呢？您了解嘛

younger027

171 天前

@frandy 明白，除了模型产出的成本，还得要维护更新，应该分两个阶段的成本统计。感谢回复。

younger027

171 天前

@maggch97 这种方案有在作，还是想尝试下垂类模型这块。毕竟我们自己的数据还是多的。希望有自己的壁垒

younger027

171 天前

@helone 嗯嗯，明白啦，感谢。我去咨询下细节

Clannad0708

171 天前

1 下载大模型
2 使用对应的微调方案
3 准备对应显存的算力按照发布版本乘以 4 的显存需求购买
4 微调参数+重新训练
5 部署使用，可以外挂 rag 来做更好的垂直准备

Clannad0708

171 天前

最简单的试水就是本地部署 deepseek+rag 方案。不需要训练也可以看到成果。如果你觉得不够只能就只能自己训练模型了

penzi

171 天前

别幻想，微调都是扯淡骗钱。美股市值前几的企业的大模型应用都是调 prompt 。好好学习最新的 AI 产品比如 claude code ，Gemini cli 怎么实现的才是正途，别幻想阿里之类的作坊能给你解决什么问题。

luobingit

171 天前

AI 陪练吗

luobingit

171 天前

正好公司前段时间想整这玩意跟几个厂商聊过 sass 的本地私有化部署应该也有但是大模型底座还是 API 调用的方式 token 计费

cwr31

171 天前

RAG 才是正道

luckyc

171 天前

@luobingit 那不就是 RAG.

op 上来就直接要训练自己的模型, 不是一个概念的.

但是我猜 op 需要关注的是哪里来训练语料.

loryyang

171 天前

这个你们有人吗？如果这个 1kw 钱投到 GPU 里面，你可以去看看，现在的价格，这个妥妥的够用了。但你要说，你没人会，那还得招人啥的，就麻烦的去了
大模型训练（其实算微调）看着好像是这么回事，自己看看学习下，感觉自己会了。但因为黑盒性质，这里面的不确定性太大了，作为正常投入，你肯定要有产出，但其实没这么容易。

tickingMachine

171 天前

具体来说，训练分两类，预训练和后训练（叫微调也可以，只不过后训练的范围更宽，微调更多直接对接使用方向）。

如果你的训练数据非常巨大，那推荐从预训练开始，从头打造专属的垂直大模型，给个参考，开源模型 Qwen2.5 是 18 万亿个 token ，Qwen3 约 36 万亿个 token ，预训练的成本也非常大，机器+训练+实验+调优等，但是 1kw 的预算可以 cover 全流程了，找国内做模型这块的厂可以直接包个团队来做全套。

如果没有那么大量的数据，“prompt + RAG + 微调 + 大量工程化” 这套流程更加推荐，这方面的教程非常多，金钱成本也非常的低，但是需要大量时间做调研和实验。

piero66

171 天前

感觉微调 qwen3 够用了，很便宜