有没有熟悉大模型开发的, help!

123 天前
 zhh2271

目前研 2 ,来到了国内一家 EDA 公司实习,预计实习半年左右,主管叫我实习期间实现一个大模型,用于公司的软件,之前都没有大模型或者 AI 方面的基础。主管的要求是这个大模型可以回答当前我们软件的一些流程怎么进行,最好可以实现一些 DRC/LVS 规则文件的编写什么的。这样的话兄弟们觉得应该用什么模型和技术好呢。目前调研打算用 DeepSeek + RAG + RAFT 这样来训练。

6023 次点击
所在节点    问与答
74 条回复
zhh2271
123 天前
这样的大模型我一个人 6 个月能弄出来吗
liu731
123 天前
Try this one.

https://dify.ai
hefish
123 天前
@zhh2271 能的,我一个月就能弄出好几个来。 我还能一个月研发几个操作系统, 我还能三天研发一个数据库。。
zhh2271
123 天前
@hefish 兄弟用的什么技术效果好一点
hefish
123 天前
我觉得搞训练得先有数据,得看数据是啥样的。 rag 好像得是基于问答的,不用训练。
yudoo
123 天前
@hefish #3 哥们不是在开玩笑的吧
renmu
123 天前
一个实习生怕不是连公司业务都不清楚,业务部门会乖乖把所有流程给一个实习生吗?你怕不是推不动这件事
txhsj
123 天前
不要欺负老实人
u2b
123 天前
n8n 训练有点子牛吧,搞搞 rag 得了
mohuani
123 天前
@zhh2271 他应该是在逗你玩
KongKong369
123 天前
@hefish 这兄弟在和你扯呢。
Mzs
123 天前
1. 远远没到训练的程度
2. 知识库的质量先保证好
3. https://dify.ai
4. 多多调试提示词
love060701
123 天前
1 、如果上下文不长,直接把你们公司常用的文档当系统 prompt 写进去,需要使用上下文比较长的模型,DeepSeek 不行因为上下文太短,可以找 128K 上下文版本的 Qwen 。

2 、微调模型,基于某个版本的模型做额外的训练,推荐基于 70B 版本的模型做训练,微调好像只能基于密集模型,MoE 模型的微调比较困难。DeepSeek R1 也不行的,只能使用 DeepSeek 蒸馏出的模型。

3 、RAG ,就是外挂知识库,数据标准化->向量化,LLM 回答问题时把知识库作为上下文,可以使用 DeepSeek R1 作为 LLM ,有 Dify 、n8n 之类的开源实现,不过你们公司有那么多资源部署自己的 DeepSeek R1 么?
chanlk
123 天前
这是想弄一个知识库吧
zhh2271
123 天前
@renmu 是这样,主管叫我先基于一个商业工具开发一个大模型出来,后续再把这个迁移到我们的软件,商业工具的文档是非常丰富的。然后迁移的话也只需要实现我们部门的一个模块就好了,暂时不需要管其它部门
zhh2271
123 天前
@love060701 显卡是有的,A100 应该有挺多的,就是不知道会不会给我用
zhh2271
123 天前
@love060701 这个生成脚本、规则文件的我感觉很难弄,像一些代码什么的,我感觉文档问答的话是不是用 RAG 就行了,但是这种脚本生成应该要怎么做啊
Felixchen1062
123 天前
从微调做起可以看看 unsloth, llmfactory, 如果想做 rag, workflow 之类的可以看看 dify, langchain,llamaindex 平台 , 固定行业脚本编写可能需要你有一些 prompt 经验, 以上内容拿去 gemini research,让他给你介绍一遍
zhh2271
123 天前
@love060701 1 这个应该不行,EDA 相关的文档很多
Felixchen1062
123 天前
@Felixchen1062 关于时间, 6 个月个人觉得足够, 多学习学习可能一个月都可以做一个初步的 MVP

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1134542

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX