批了 100 万预算让我负责搭建行业知识库大模型, 但是目前还没有思路

1 天前
 sodayo

我们公司有国内某个垂直领域最全面的文档和文献, 上面想要根据这些资源来基于大模型构建一个行业知识库型问答系统, 先自己内部用, 然后再看看能不能直接打包卖方案给别的公司. 前期 POC 阶段, 用的 RAGFlow 和本地运行 deepseek-r1:14b, 但是效果并不算太好, 但是上面坚持要搞, 所以来问问目前有没有什么更好的方案.

目前预算是够运行满血版 deepseek-r1, 但是瓶颈出现在 RAG 的召回阶段, 并且本身这些文档对于向量化来说质量不算太好, 有很多图表. 所以是否需要专门雇人来将这些文档制作成大模型可用的数据集并微调模型, 然后再使用工作流的形式处理问答会比较好呢 ?

3191 次点击
所在节点    Local LLM
27 条回复
urlpha
1 天前
行业知识库我的理解类似于传统的数据中台,对原始数据的处理能力很重要,需要内置一些面向咱们行业内容的预处理脚本,处理成面向 ragflow 等开发平台友好的输出结构。我认为这个部分是行业知识库大模型的竞争力或产品力所在。
huangmiao233
1 天前
deepseek-r1 685B 需要 6 张 H20 141G 去推理 , 目前整机服务器价格 大概是 120W 左右.
hutng
1 天前
之前小型的搞过一个知识库。

模型不是重点,你用 deepseek ,qwen 都可以,我其实建议你上 qwen3 32B ,模型能力不是知识库的瓶颈。主要注意的是上下文大小和并发够不够。

重点是什么?是索引的精度,问题输入后 rag 拉出来的文本块和问题的匹配度高不高。如果这里不高,再强的大模型也是胡诌。

建议:先去详细梳理需求,整个问题库,分块大小,索引,测试。抓出的块符合预期了再去搞大模型。涉及到的内容:向量模型、重排模型、分块大小、怎么分块等等。

我这里的项目比较小,纯 rag 效果一般,尤其是数据量大的时候。 没用过 GraphRAG 这类高阶的,不做评判。
dko
1 天前
根据我踩过的知识库搭建的坑,给你点建议:
1.先别想完整落地方案,把流程先走通,模型、向量数据库等先用云上资源测试通,最终评估到底要用哪个。不同行业类型知识库的调优都是个技术活儿。
2.提示词是个大爹,我 300+文档,提示词写了都快几千字。你先用少量知识库把流程走通,情感、问题分类搞好。
3.性能也是个大问题,以上先完成知道大概节点会卡在哪里,提前规划,不然知识库你要反复搞好几次。
felixcode
1 天前
想好了,别钱花完了啥都没有
raydied
1 天前
楼主已经注意到召回瓶颈,这点很关键。

我基于 dify 做了一些测试,用的是 word 文档,里面有文本、表格、无图片。
1 、同一文档的不同解析方式会影响 chunk 块 -> 会影响召回质量 -> 会影响首字返回和回答质量,所以文档解析和清洗方式都十分重要(自动化处理也很重要)。
2 、不同 chunk 方式会直接影响召回质量。
3 、基于不同嵌入模型的向量化会影响召回质量。
4 、因不同模型的指令执行能力不同,相同召回下给出的最终答案并不能都很好。

你不是有预算吗?嵌入模型( text-embedding-3 等)、各大中转站的大模型 API 都挺便宜的。

最后,基于大量数据集的微调,100W 不够。所以,与其急着上大规模微调,不如先把文档解析和召回优化到位。
你可以做个实验:解析 、Chunk 、Embedding 、Rerank 、Prompt 、LLM 选型 、 微调。
chairuosen
1 天前
我提一个思路,
先让模型扫一遍所有文档,把每个文档讲的啥总结一下做成目录,每个文档 100 字左右。总体控制在一次的输入限制长度内。
然后把用户问题对着这个总结让模型自己找可能有关的目录。
再只取这几篇的全文查看,回答问题。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1155193

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX