V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
lcingOnTheCake
V2EX  ›  程序员

对于程序员,微调大模型这条路走的通吗?

  •  
  •   lcingOnTheCake · 49 天前 · 1345 次点击
    这是一个创建于 49 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在大模型 AI 微调在实际应用中靠谱吗?

    我在公司申请了一个 4090D 显卡,24GB 显存的,使用 qwen2.5-coder-32b-q3 + ollama + openwebui + rag 知识库,将开发文档和大模型结合,实现智能动态问答,感觉效果还可以。

    为了更进一步,使用 llamafactory 微调 qwen 7b 大模型,将开发文档微调进大模型,但是翻来覆去的调试,最终的效果比 rag 知识库差很多

    关于大模型微调,网上的教学资料能提供的参考也很少,B 站的视频最多介绍怎么搭建环境,微调参数的设置基本没有系统性讲解的

    现在我有点搞不清楚了,是不是微调这条路走不通?还是我用的显卡太差,或者说我微调的参数设置的不对?反正我感觉大模型微调这条路很难走哎!请有经验的兄弟帮忙解答下,拜谢

    testliyu
        1
    testliyu  
       49 天前
    可以试下参数量大点的模型
    lcingOnTheCake
        2
    lcingOnTheCake  
    OP
       49 天前
    @testliyu 4090D 显卡微调 7b 模型到顶了,参数量再大的显存不够了
    wyntalgeer
        3
    wyntalgeer  
       49 天前   ❤️ 1
    超参本来就没什么可参考性,同样的参数你每次都能得到不同能力的模型

    吾辈都是随性设置,开炉评估说话,一切自有天意
    queziaa
        4
    queziaa  
       49 天前   ❤️ 1
    对于一些常见任务,调整 RAG 策略、LLM 采用线上大参数版本、调整提示词。这些都是首选的改进策略。
    微调虽然已经有些框架能让你很快速的进行一轮训练,但任务,数据集的选取,参数等等都是关键的东西,需要大量试错和调整,这又要求有一套评价体系,眼睛看肯定不行。
    尤其又是微调时候因为节省显存采用量化或是采用 LoRa ,这些都很影响性能(尤其是知识性的)。 如果只有 4090D ,建议立刻放弃。
    LeonardSc
        5
    LeonardSc  
       49 天前
    没意义,7B 除非是很简单的任务,否则就是效果不好
    Suger828
        6
    Suger828  
       49 天前
    微调大模型来实现把知识灌入基本不可能,你只能重新预训练 , 微调做的只是让大模型懂一些专业的流程和术语的理解
    ladeo
        7
    ladeo  
       48 天前
    32B 以下都可以自己干啊,用网上的算力平台跑。
    FT 是手艺活,孰能生巧。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   978 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 22:18 · PVG 06:18 · LAX 15:18 · JFK 18:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.