V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wenkgin
V2EX  ›  Local LLM

AI 本地化部署的方式

  •  
  •   wenkgin · 2 天前 · 2268 次点击

    最近在尝试本地化部署 AI ,用了 ollama+dify ,只是简单的试用了下,感觉还行,能完全在离线环境安装使用。

    想问问老哥们的方式有哪些,我都想试试对比一下

    打赏作者
    32 条回复    2025-09-13 23:09:04 +08:00
    byby
        1
    byby  
       2 天前
    都半斤八兩,最後都要老老實實上 api
    songyoucai
        2
    songyoucai  
       2 天前
    超微 7049 128g 内存 2080ti22g * 2 pve+Ubuntu + vllm 部署了 千问 30b
    SGL
        3
    SGL  
       2 天前
    本地化部署的是不是都是“弱智”AI ,有实际应用价值不
    totoro52
        4
    totoro52  
       2 天前
    多少 B 的? 本地部署大语言模型纯降智成智障,还不如接 api 真的,花点钱还省了多少电费
    davidyin
        5
    davidyin  
       2 天前 via Android
    在 16G 内存的 i5 6500 上跑过 十几 b 的模型,反应速度还行。
    visper
        6
    visper  
       2 天前
    本地就 ollama 玩玩就行了啊。又或者 xinference 之类的可以部署其他格式的模型。
    chiaf
        7
    chiaf  
       2 天前 via iPhone
    本地聊天的那种没意思。

    生成图片视频的还不错,但是对设备的要求太高
    justtokankan
        8
    justtokankan  
       2 天前
    用来做量化交易用应该不错吧
    sdwgyzyxy
        9
    sdwgyzyxy  
       2 天前
    cnb 每个月可以白嫖 1600 核时,h20 的 gpu ,可以跑 gpt-oss:120b ,挺好的
    wenkgin
        10
    wenkgin  
    OP
       2 天前
    @byby 很多场景还是需要本地化的(涉密信息、能完全控制 api 的方式以后停用、收费),设备不用担心有需要就肯定有钱买,主要是看 ai 模型的效果如何
    wenkgin
        11
    wenkgin  
    OP
       2 天前
    @visper 我现在玩的就是 ollama 感觉可用性太低了,我电脑性能也不太行
    wenkgin
        12
    wenkgin  
    OP
       2 天前
    @davidyin 也是用的 ollama 吗
    wenkgin
        13
    wenkgin  
    OP
       2 天前
    @totoro52 qwen3:4b ,测试用的 我只是验证可行性
    youtubbbbb
        14
    youtubbbbb  
       2 天前
    本地部署的意义是什么?即使你有隐私的考虑,租服务器也好很多
    wenkgin
        15
    wenkgin  
    OP
       2 天前
    @youtubbbbb 有些涉密内容的知识库或者公司内部的一些东西,不能公开的
    silomrelephant
        16
    silomrelephant  
       2 天前
    8b 可以稳定工具调用了,20b oss 能用用。硬件可以考虑 ai pc ,32g 统一大内存足够,2/4 通道板载内存速度够用。
    wenkgin
        17
    wenkgin  
    OP
       2 天前
    @silomrelephant 我这够吗?
    <img src="https://i.mji.rip/2025/09/12/876a350e56245a7659d2ca98b33874d8.png" alt="876a350e56245a7659d2ca98b33874d8.png" border="0">
    wenkgin
        18
    wenkgin  
    OP
       2 天前
    @silomrelephant 搞了半天这个应该能是图片了吧
    https://imgur.com/a/aX4bsr3
    wenkgin
        19
    wenkgin  
    OP
       2 天前
    wenkgin
        20
    wenkgin  
    OP
       2 天前
    wenkgin
        21
    wenkgin  
    OP
       2 天前
    silomrelephant
        22
    silomrelephant  
       1 天前 via Android
    @wenkgin cpu 应该问题不大,没研究过这个 r9 ,目前主要瓶颈看内存速度,成品机 ai pc 板载 ddr5 多通道的,一般比自己组的速度高很多,自己找大模型算一下 token 每秒多少
    8o8
        23
    8o8  
       1 天前
    本地部署性能有点跟不上,我在本地跑的 15b phi4 用来进行编程,感觉上下文长度限制很大,经常写着写着就忘了要干什么,总之很不好用。如果有哪位大佬本地调好了请指点一下。
    在三个配置上都试了:
    1.台式机,14900K+256GB 内存,使用 cpu 跑
    2.笔记本电脑,14900K+64G 内存+4070
    3.服务器,至强 6138*2+512G 内存+3080-12GB*4
    songyoucai
        24
    songyoucai  
       1 天前
    @8o8 #23 我们可以交流交流 我现在编程 部署的 30b 感觉够用
    YsHaNg
        25
    YsHaNg  
       1 天前 via iPhone
    @8o8 都有第三个平台了为什么跑 phi4 这么上古的模型 还是个 14b 的
    YsHaNg
        26
    YsHaNg  
       1 天前 via iPhone
    @8o8 都有第三个平台了为什么跑 phi4 这么上古的模型 还是个 14b 的 按说这能跑 qwen3-coder:480b
    davidyin
        27
    davidyin  
       1 天前 via Android
    @wenkgin
    是的
    wtks1
        28
    wtks1  
       1 天前
    有没有那种本地部署,家用 pc 也能带的动的翻译模型?
    iorilu
        29
    iorilu  
       1 天前
    说实话, 本地部署唯一有点用的就是翻译

    翻译说实话确实不需要太大模型, 8b 就行了

    其他的还是算了, 真想干点活, 还得上 api, 除非你有能力部署那种满血 deepseek, 那是另一回事
    busier
        30
    busier  
       1 天前 via iPhone
    lm studio 操作界面友好些
    shuimugan
        31
    shuimugan  
       1 天前
    @wenkgin 内存小小,带宽小小,只能找 [激活参数 < 5B] 的模型的 4bit 量化了。

    Qwen3-Next-80B-A3B 系列、Qwen3-30B-A3B-2507 系列、ERNIE-4.5-21B-A3B-Thinking 、SmallThinker-21BA3B-Instruct 这些都能在低配置玩,里面的 A3B 的意思就是激活的参数只有 3B ,4bit 量化后 DDR4-3200 双通道的带宽 50GB/s 左右也能跑个 15token/s 左右(单人勉强用),像锐龙 AI Max+ 395 的 256GB/s 的内存带宽就能跑个 55token/s 左右。

    其实本地模型现在已经很能打了,从 Mixtral-8x7B 开始打 ChatGPT3.5 的时候 MoE 架构模型应该成为主流,可惜国内一直没怎么跟,直到 DeepSeek V2.5 V3 R1 这些出来国内才跟进大搞 MoE 模型,今年出的模型都是 MoE 为主的了。

    而且模型越大提升的能力分数并不是线性增加的,关注现在的模型跑分就能得出结论,就像前几天的 Qwen3-Max-Preview ,1000B 的参数,比自家 Qwen3-235B-A22B-2507 多了 765B ,这个差距差不多能塞一个 DeepSeek + gpt-oss-120b 了,然而性能提升连 10%都没有,所以现在选模型有点像玩游戏选个甜品卡那样,根据你的任务难度和硬件选一个合适的模型(你的任务里跑分高的)就行了。

    你这个硬件看起来像是个笔记本带个小显存的 N 卡,模型从上面 A3B 里挑一个,部署方案首选 https://github.com/kvcache-ai/ktransformers (合理分配好模型活跃的专家到 GPU 跑得快点),次选 LM Studio 这种傻瓜式部署方案
    youtubbbbb
        32
    youtubbbbb  
       22 小时 26 分钟前
    @wenkgin 这种情况下用私有云的集成方案就好了,没必要自己手搓,ai infra 的成本还是挺高的。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2884 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 13:35 · PVG 21:35 · LAX 06:35 · JFK 09:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.