CURD 工程师,纯模型训练外行。想请教下目前训练一个垂直领域的 AI 机器人模型,大致成本分布是什么样的呢?数据层面公司有很多,包括文字、图片,视频。训练流程应该包括哪些方面的成本呢?(我只知道需要 gpu )。请大家不吝赐教。当然也可以花钱让别的公司给训练(主要还是数据不想交出去),靠谱的渠道公司一般会如何报价呢,交付流程又是什么样呢。(公司没有大模型团队)。
1
KenThompson1729 13 天前
具体什么任务 预算能有多少
|
![]() |
2
younger027 OP @KenThompson1729 语言教学,预算不限,1kw rmb 左右都可以接受。这个价格只是随口一报,如果效果好,预算也可以提
|
![]() |
3
chy2v 12 天前
主要是你想达到什么效果,有什么要求
|
![]() |
4
xmumiffy 12 天前 via Android
你这预算都可以直接联系一手厂商 ,智谱 阿里之类的都行。他们来你本地安装服务器协助训练。报价是服务器购买或租赁价格和工程师费用。
|
![]() |
5
frandy 12 天前
我能想到的训练流程应该包括哪些方面的成本:
1 、硬件成本( GPU ) 2 、人力成本(虽然有很多数据,但是喂给模型的数据需要进行整理) 3 、维护成本(肯定要迭代更新吧) 都预算不限了,那就看在这个垂类行业效果了,一开始训练一个参数集小的垂类模型,试试水,根据具体业务情况进行调整,觉得不错了,再扩大数据集。 |
6
KenThompson1729 12 天前
@younger027 语言教学这个题目太大了,如果能具体细化到功能 比如说口语打分,实时陪练,写作批改 那还可以估计一下具体的成本
|
7
maggch97 12 天前 via iPhone
根本就不要训练,调 prompt ,调 tools 调用
|
![]() |
8
helone 12 天前
@younger027 真有 1kw rmb 预算直接联系阿里云这种厂商,会有人一对一对接的
|
![]() |
9
younger027 OP @chy2v 能充当一个 AI 教辅的职责,下面那个哥们说的,口语打分,纠音,实时陪练,写作批改这些都希望有。是不是又得在这些里面细分更垂类的模型呢。专家小模型?
|
![]() |
10
younger027 OP @xmumiffy 明白,直接就驻场了是吧。那费用呢,比如说半年内要个可用的模型,应该报价多少呢?您了解嘛
|
![]() |
11
younger027 OP @frandy 明白,除了模型产出的成本,还得要维护更新,应该分两个阶段的成本统计。感谢回复。
|
![]() |
12
younger027 OP @maggch97 这种方案有在作,还是想尝试下垂类模型这块。毕竟我们自己的数据还是多的。希望有自己的壁垒
|
![]() |
13
younger027 OP @helone 嗯嗯,明白啦,感谢。我去咨询下细节
|
![]() |
14
Clannad0708 12 天前
1 下载大模型
2 使用对应的微调方案 3 准备对应显存的算力按照 发布版本乘以 4 的显存需求购买 4 微调参数+重新训练 5 部署使用,可以外挂 rag 来做更好的垂直准备 |
![]() |
15
Clannad0708 12 天前
最简单的试水就是本地部署 deepseek+rag 方案。不需要训练也可以看到成果。如果你觉得不够只能就只能自己训练模型了
|
16
maggch97 12 天前
别幻想,微调都是扯淡骗钱。美股市值前几的企业的大模型应用都是调 prompt 。好好学习最新的 AI 产品比如 claude code ,Gemini cli 怎么实现的才是正途,别幻想阿里之类的作坊能给你解决什么问题。
|
![]() |
17
luobingit 12 天前
AI 陪练吗
|
![]() |
18
luobingit 12 天前
正好公司前段时间想整这玩意 跟几个厂商聊过 sass 的 本地私有化部署应该也有 但是大模型底座还是 API 调用的方式 token 计费
|
![]() |
19
cwr31 12 天前
RAG 才是正道
|
![]() |
21
loryyang 12 天前
这个你们有人吗?如果这个 1kw 钱投到 GPU 里面,你可以去看看,现在的价格,这个妥妥的够用了。但你要说,你没人会,那还得招人啥的,就麻烦的去了
大模型训练(其实算微调)看着好像是这么回事,自己看看学习下,感觉自己会了。但因为黑盒性质,这里面的不确定性太大了,作为正常投入,你肯定要有产出,但其实没这么容易。 |
22
tickingMachine 12 天前
具体来说,训练分两类,预训练和后训练(叫微调也可以,只不过后训练的范围更宽,微调更多直接对接使用方向)。
如果你的训练数据非常巨大,那推荐从预训练开始,从头打造专属的垂直大模型,给个参考,开源模型 Qwen2.5 是 18 万亿个 token ,Qwen3 约 36 万亿个 token ,预训练的成本也非常大,机器+训练+实验+调优等,但是 1kw 的预算可以 cover 全流程了,找国内做模型这块的厂可以直接包个团队来做全套。 如果没有那么大量的数据,“prompt + RAG + 微调 + 大量工程化” 这套流程更加推荐,这方面的教程非常多,金钱成本也非常的低,但是需要大量时间做调研和实验。 |
23
piero66 12 天前
感觉微调 qwen3 够用了,很便宜
|