V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
laijh
V2EX  ›  Local LLM

个人电脑,适合跑哪个本地大模型?

  •  
  •   laijh · 31 天前 · 2772 次点击

    自己电脑配置:mac mini m2 16g

    通过 ollama ,安装了

    • qwen3:8b
    • qwen3:4b
    • gemma3:4b
    • mistral:7b

    目的是为了优化公众号文章标题:

    import re
    from langchain_ollama import ChatOllama
    from langchain_core.prompts import ChatPromptTemplate
    from langchain_core.output_parsers import StrOutputParser
    
    # 初始化 Ollama 模型
    llm = ChatOllama(
        model="gemma3:4b",
    )
    
    # 定义提示模板
    prompt_template = ChatPromptTemplate.from_template(
        """
        假设你是个具有丰富的爆文经验的微信公众号作者,现提供的"{question}"文章标题,优化标题,只输出最优的那个,结果不需要解释。
        """
    )
    
    # 创建处理链
    chain = prompt_template | llm | StrOutputParser()
    
    # 示例问题
    question = "女人离我远点"
    
    # 调用链并获取纯答案
    answer = chain.invoke({"question": question})
    
    clean_text = re.sub(r"<think>.*?</think>", "", answer, flags=re.DOTALL).strip()
    
    # 输出结果
    print(clean_text)
    
    

    分别用了上面的几个模型,跑下来,都比较慢,有没有其他性价比比较高的?

    21 条回复    2025-06-24 00:38:16 +08:00
    highkay
        1
    highkay  
       31 天前
    你没有显卡肯定慢啊……,而且我觉得感觉你这个是任务的质量大于速度的,从结果讲推荐新版的 r1 蒸馏的 qwen3-8b ,同级别的模型输出的 token 越多,质量越好,一般来讲。
    rogerer
        2
    rogerer  
       31 天前
    @highkay 据说苹果线上就有服务是跑在 mac mini 上
    DendimoN
        3
    DendimoN  
       31 天前
    1. mlx 格式的快一些
    2. 你用的 ollama 是不是只会使用 cpu ?看一下 metal llama.cpp 这个项目,或者直接用 lmstudio 起服务试一下。
    wfhtqp
        4
    wfhtqp  
       31 天前
    ollama 怎么用的? docker 的话有没有挂载 gpu 进去?
    yoreee
        5
    yoreee  
       31 天前
    没有必要本地部署,效果差
    Reficul
        6
    Reficul  
       31 天前
    7b 的模型太小,效果不太理想。
    cF06myaQ57WHKMBv
        7
    cF06myaQ57WHKMBv  
       31 天前
    本地部署,大的跑不动,小的弱智,还不如直接调用 API 方便,
    lcingOnTheCake
        8
    lcingOnTheCake  
       31 天前
    要跑的大模型的话,最起码有 4090D ,比如你安装的 qwen3:8b ,不使用量化版本的话,要吃 20GB 显存,普通显卡根本吃不消
    yuuluu
        9
    yuuluu  
       31 天前
    个人电脑不太适合跑本地大模型.

    对于优化公众号标题这个需求, 应该没有本地化的必要吧...
    uprit
        10
    uprit  
       31 天前
    你用 M2 肯定慢啊,带宽才 100G ,跑 Q4 量化模型 7B 的也就 20 多 t/s ,速度勉强能接受,能力一塌糊涂。
    你想快,要么就换带宽更高的,比如 M1 ultra ,800G 带宽。或者换 N 卡平台,比如 5070ti ,差不多 900G 带宽
    要么就得用更小的模型,比如 1.5B 的,快是快了,但能干的活儿不多,只能处理非常非常简单的任务,你这种优化标题的任务就别想了。
    再说了,你真要用这种 7B 以下的模型,有些官方的 API 都是免费的,你折腾这个干嘛。
    wu67
        11
    wu67  
       31 天前
    没必要, 本地跑‘小’模型, 跑出来的有点像弱智+复读机
    laijh
        12
    laijh  
    OP
       31 天前
    感谢大佬意见,已改用 deepseek 的线上模型
    ly001
        13
    ly001  
       31 天前
    chatbox + api 随便用,简直不要太方便
    nailuoGG
        14
    nailuoGG  
       31 天前
    Ollama 已经支持用 meta api 来加速了: https://github.com/ollama/ollama/blob/main/docs/gpu.md

    速度慢更可能是内存不够
    goodhellonice
        15
    goodhellonice  
       31 天前
    本来我也准备部署本地的。。后来发现远不如在线的。。。现在主要用 gemini grok kimi
    loganovo
        16
    loganovo  
       31 天前
    本地只能玩玩, 过了新鲜感后, 再也不想点开
    fredweili
        17
    fredweili  
       30 天前
    这个配置能跑 8b ,4b 就更能了,用流式模式
    testliyu
        18
    testliyu  
       30 天前
    @wfhtqp cpu 部署的吧
    huizai2022
        19
    huizai2022  
       30 天前
    用硅基流动吧 免费的 8b 模型
    coefuqin
        20
    coefuqin  
       29 天前
    pc 而言,除了 mac studio m3 ultra 512 之外,就没有能用的了。
    mili100
        21
    mili100  
       25 天前
    内存足够的话也许试试看 Qwen3:30B-A3B ,激活参数仅 3B ,品质接近 32B (虽然对于 16G ,iQ2 UD 量化可能都有些捉襟见肘)
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   940 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:11 · PVG 04:11 · LAX 13:11 · JFK 16:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.