本来我只是在一个 GPU 云公司敲代码的。
前一阵老板说我们有 GPU 资源,得用起来啊!
于是大家来了个头脑风暴,聊来聊去,发现没啥比微调训练更需要算力的了。
那咱干脆就做个低代码大模型微调平台吧。
兄弟们叮了咣啷的搞了 2 个月,终于是上线了。
现在已经能支持一百多种开源模型( Qwen 、Llama 、Yi 、InternLM 什么的都有),LoRA 、QLoRA 、全参数训练都能跑,底层用的 H100 。
不过现在我有个疑惑:
我自己觉得这玩意挺方便的,但我发现我不知道到底是谁,在什么场景下,会真正需要这么一个东西? 😂
我不是来打广告的哈,主要是想跟大家取取经:
一是想看看大家都在什么场景下会做微调;
二是我们这样一个产品大家会用的上嘛?
如果有人刚好在搞微调、或者想跑点实验,可以私我哈,可以给大家搞点额度玩玩。
1
AllenZ0 1 天前
推给友商。
|
2
hmxxmh 1 天前 via Android
已经有类似的框架了吧,swift 或者 llamafactory
|
3
skallz 1 天前
有个经常用到的场景,就是 ocr ,不同业务场景下 ocr 的图片差的很多,一般都需要针对不同场景专门训练,通用的模型在部分业务中效果较差
如果 op 能提供个服务先根据上传的图片自动识别文字,然后再给人工矫正文字,再用这些材料自动化训练,就是个很实用的落地场景了 |
7
RealMan 13 小时 40 分钟前
似乎和 Danqi Chen 他们做的 Tinker 很类似: https://thinkingmachines.ai/tinker/
我个人的观点是这类平台有点奇怪,小公司一般都没有微调需求,RAG+Context engineering 解决 90%任务。对隐私有要求的公司可能会有微调的垂直落地需求,但是他们肯定会选择本地部署,或者自建可控云平台训练。不会上传数据到其他平台训练。 |
8
okoklll OP @RealMan 感谢提供思路哈~ 看了下 Tinker ,看起来是提供了个 SDK ,写代码使用的。 我这个是不需要写代码,在页面配置参数,然后提交训练任务就行了,本意是想降低微调门槛。
您的观点我是认同的。 我们也和一些做 AI 应用的公司聊过,现状是这样的。 另外,数据安全性也确实是一个绕不开的问题,也有用户问我们私有化部署或单独签署安全协议的事情。 同时,我们也看到一些个人用户或中小企业用户有微调需求,但难以承担自建的硬件和维护成本。但目前我们用户规模还比不大,不知道这样的用户群体是不是普遍存在以及分布在哪些行业中~ |
9
joocejie 9 小时 32 分钟前
之前用过云算力平台,给小孩把低清动画片通过 Real-ESRGAN 超分辨率转成高清动画片。
|