tickingMachine 最近的时间轴更新
tickingMachine

tickingMachine

V2EX 第 436256 号会员,加入于 2019-08-16 08:53:22 +08:00
tickingMachine 最近回复了
具体来说,训练分两类,预训练和后训练(叫微调也可以,只不过后训练的范围更宽,微调更多直接对接使用方向)。

如果你的训练数据非常巨大,那推荐从预训练开始,从头打造专属的垂直大模型,给个参考,开源模型 Qwen2.5 是 18 万亿个 token ,Qwen3 约 36 万亿个 token ,预训练的成本也非常大,机器+训练+实验+调优等,但是 1kw 的预算可以 cover 全流程了,找国内做模型这块的厂可以直接包个团队来做全套。

如果没有那么大量的数据,“prompt + RAG + 微调 + 大量工程化” 这套流程更加推荐,这方面的教程非常多,金钱成本也非常的低,但是需要大量时间做调研和实验。
2023-11-23 16:51:26 +08:00
回复了 firefox12 创建的主题 程序员 传统工程师如何入门 ai?
快速上手而且理论和实践并行,我推荐李沐的动手学深度学习,https://zh-v2.d2l.ai/
系统性的来一遍比什么都强。
2023-11-23 16:48:18 +08:00
回复了 WarlockMan 创建的主题 程序员 计算机里还有哪些板块像爬虫一样适合提升修为
我的提议是学 AI ,从基本的说,就是数据分析和线代(向量运算),高数和线代有所了解即可,数据分析也只需要做到能够做一些预处理,不过也是深究起来天花板很高的学问。然后开始了解一些传统机器学习算法,后面到了深度学习也只需要系统性的学习一下那些经典架构以及各自擅长的数据类型,到了后面基本都是更偏向应用系统构建。不过我觉得直接开始深度学习也是可以,前面那些不管怎么样都会遇到,需要的时候再去学即可。
2022-12-07 13:18:05 +08:00
回复了 summerLast 创建的主题 OpenAI 关于 ChatGPT 我们也许理解错了
可以去了解一下 COT ,chain of thought ,是目前 NLP 领域对于大语言模型在逻辑推理上面的最新进展。举个简单例子,在原始情况下你问模型一个数学题,模型最终返回单独一个答案,在加上 COT 的提示 /模板语句(Let's think step by step...)之后,模型会返回整个推理逻辑,就像人解决数学题需要一步一步推理的步骤一样,最终能大幅提高答案的正确率。现在的结论就是大语言模型我们其实还没有摸到它的能力边界,但是仅仅是这样就已经能够做到很多事了。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2705 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 08:18 · PVG 16:18 · LAX 01:18 · JFK 04:18
Developed with CodeLauncher
♥ Do have faith in what you're doing.