个人电脑,适合跑哪个本地大模型?

31 天前
 laijh

自己电脑配置:mac mini m2 16g

通过 ollama ,安装了

目的是为了优化公众号文章标题:

import re
from langchain_ollama import ChatOllama
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# 初始化 Ollama 模型
llm = ChatOllama(
    model="gemma3:4b",
)

# 定义提示模板
prompt_template = ChatPromptTemplate.from_template(
    """
    假设你是个具有丰富的爆文经验的微信公众号作者,现提供的"{question}"文章标题,优化标题,只输出最优的那个,结果不需要解释。
    """
)

# 创建处理链
chain = prompt_template | llm | StrOutputParser()

# 示例问题
question = "女人离我远点"

# 调用链并获取纯答案
answer = chain.invoke({"question": question})

clean_text = re.sub(r"<think>.*?</think>", "", answer, flags=re.DOTALL).strip()

# 输出结果
print(clean_text)

分别用了上面的几个模型,跑下来,都比较慢,有没有其他性价比比较高的?

2772 次点击
所在节点    Local LLM
21 条回复
highkay
31 天前
你没有显卡肯定慢啊……,而且我觉得感觉你这个是任务的质量大于速度的,从结果讲推荐新版的 r1 蒸馏的 qwen3-8b ,同级别的模型输出的 token 越多,质量越好,一般来讲。
rogerer
31 天前
@highkay 据说苹果线上就有服务是跑在 mac mini 上
DendimoN
31 天前
1. mlx 格式的快一些
2. 你用的 ollama 是不是只会使用 cpu ?看一下 metal llama.cpp 这个项目,或者直接用 lmstudio 起服务试一下。
wfhtqp
31 天前
ollama 怎么用的? docker 的话有没有挂载 gpu 进去?
yoreee
31 天前
没有必要本地部署,效果差
Reficul
31 天前
7b 的模型太小,效果不太理想。
cF06myaQ57WHKMBv
31 天前
本地部署,大的跑不动,小的弱智,还不如直接调用 API 方便,
lcingOnTheCake
31 天前
要跑的大模型的话,最起码有 4090D ,比如你安装的 qwen3:8b ,不使用量化版本的话,要吃 20GB 显存,普通显卡根本吃不消
yuuluu
31 天前
个人电脑不太适合跑本地大模型.

对于优化公众号标题这个需求, 应该没有本地化的必要吧...
uprit
31 天前
你用 M2 肯定慢啊,带宽才 100G ,跑 Q4 量化模型 7B 的也就 20 多 t/s ,速度勉强能接受,能力一塌糊涂。
你想快,要么就换带宽更高的,比如 M1 ultra ,800G 带宽。或者换 N 卡平台,比如 5070ti ,差不多 900G 带宽
要么就得用更小的模型,比如 1.5B 的,快是快了,但能干的活儿不多,只能处理非常非常简单的任务,你这种优化标题的任务就别想了。
再说了,你真要用这种 7B 以下的模型,有些官方的 API 都是免费的,你折腾这个干嘛。
wu67
31 天前
没必要, 本地跑‘小’模型, 跑出来的有点像弱智+复读机
laijh
31 天前
感谢大佬意见,已改用 deepseek 的线上模型
ly001
31 天前
chatbox + api 随便用,简直不要太方便
nailuoGG
31 天前
Ollama 已经支持用 meta api 来加速了: https://github.com/ollama/ollama/blob/main/docs/gpu.md

速度慢更可能是内存不够
goodhellonice
31 天前
本来我也准备部署本地的。。后来发现远不如在线的。。。现在主要用 gemini grok kimi
loganovo
31 天前
本地只能玩玩, 过了新鲜感后, 再也不想点开
fredweili
30 天前
这个配置能跑 8b ,4b 就更能了,用流式模式
testliyu
30 天前
@wfhtqp cpu 部署的吧
huizai2022
30 天前
用硅基流动吧 免费的 8b 模型
coefuqin
29 天前
pc 而言,除了 mac studio m3 ultra 512 之外,就没有能用的了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1139183

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX