推荐各位利用 ollama 在自有电脑上跑大模型,使用非常方便

2024-02-28 16:02:57 +08:00
 keepRun

ollama 用法跟 docker 很类似,指定 run 哪个模型就会自动去下载使用。

我用我的 1650 笔记本允许 mistral ,跑起来速度还行。

模型列表: https://ollama.com/library

方法: 建议采用 wsl2 运行 ollama ,安装 cuda 后即可利用显卡跑 ollama ,否则会利用 cpu 跑大模型。

wsl2 安装 cuda 直接用我这个链接即可: https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=WSL-Ubuntu&target_version=2.0&target_type=deb_local

9407 次点击
所在节点    Local LLM
24 条回复
cwyalpha
2024-02-28 16:08:14 +08:00
1650 显存多少?能跑什么量级的模型?
ahsjs
2024-02-28 16:11:42 +08:00
嗯嗯,我也用的这个,只能跑小模型,谷歌的 gemma 之类的
o562dsRcFqYl375i
2024-02-28 16:20:54 +08:00
确实很方便。至于能跑多大的模型主要看机器的硬件配置吧,跟 ollama 这个工具应该没多大关系
ChaoYoung
2024-02-28 16:22:20 +08:00
同类 LM Studio 可视化相当不错
keepRun
2024-02-28 16:28:14 +08:00
@cwyalpha 显存 4g ,不过 win11 会自动把显存和内存同时用上,所以即使跑 7B 模型也可以,只是速度会慢些
Rrrrrr
2024-02-28 16:42:11 +08:00
Macbool air M2 可以跑吗,给个教程
panxiuqing
2024-02-28 16:43:49 +08:00
Mac 上用 m1 很快。
l4ever
2024-02-28 16:45:30 +08:00
早就试过, 没有好用的模型. 有更好的推荐吗?
PowerDi
2024-02-28 16:45:44 +08:00
@keepRun 如果是调试大模型,会把内存和显存都用上吗? pytorch
keepRun
2024-02-28 16:51:34 +08:00
@PowerDi 应该可以把,这个功能是显卡驱动支持的,系统层面就支持了
supergeek1
2024-02-28 17:08:47 +08:00
可以,m1 pro 跑个小模型速度很快
monsterx2a
2024-02-28 17:42:02 +08:00
它和 docker 啥关系? 有啥优势吗?
kwater
2024-02-28 18:02:28 +08:00
ollama 安装后, 跑 17g 模型在 m1 还行,下载速度飞快,
加载首次等待比较久。

ollama run gemma:7b-instruct-fp16
可以自己开多会话


在 内存紧张就选小的
ollama run gemma:7b
dacapoday
2024-02-28 18:02:37 +08:00
主要是它底层的 ggml 库的功劳,作者是个肝帝,移植了大量 开源的 llm 和 权重
keepRun
2024-02-28 19:10:42 +08:00
@monsterx2a 跟 docker 没关系,只是使用方式像 docker
McVander
2024-02-28 22:07:16 +08:00
m2 max 运行 gemma:7b 速度飞快
CyouYamato
2024-02-28 22:13:06 +08:00
手里有台闲置的 4060,目前测试了 gemma 7B ,2B,llama2 。目前来说,2B 快又还不错。搭配 chatbox 还不错。
kaichen
2024-02-28 23:16:05 +08:00
@Rrrrrr #6

https://lmstudio.ai/ 下载个客户端,搜索对应大小的模型( apple silicon 是内存的 3/4 可以作为显存),可以先搜索 qwen gguf 找个合适大小的玩玩看

然后可以直接对话,或者启动一个与 openai api 兼容的 api server
cyp0633
2024-02-29 08:36:50 +08:00
怎么在我的 1650 笔记本上就用 CPU 跑 mistral-7b...
weilongs
2024-02-29 10:59:26 +08:00
目前在用 m2 pro 跑. 客户端本地使用 chat box. 后面考虑是否搞个 Mac 盒子 穿透玩一下.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1019170

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX