本地部署的小模型(小于 16G 显存)适合轻任务,哪一个模型比较好用?

155 天前
 Kinnikuman

有一个 16G 显存的显卡闲置,跑了几个模型,测试过一阵子了。

 $ ollama list
NAME                     ID              SIZE    
llama3.1:latest          46e0c10c039e    4.9 GB
gemma2:latest            ff02c3702f32    5.4 GB
deepseek-coder-v2:16b    63fb193b3a9b    8.9 GB

具体的任务是内容标题生成和翻译。

llama3.1 是 8b 参数,gemmma2 是 9b ,deepseek-coder-v2 是 16b 。

内容标题生成来讲,不是很能对比出差别。因为生成的标题即使有偏差也大差不差。但是对于翻译,需要一定的翻译质量。

对于翻译来讲 deepseek-coder-v2 > gemma2 > llama3.1 。

平时用到的翻译是 Bob 翻译+沉浸式翻译,用的还挺频繁的。

所以大家还有什么小一点的模型推荐跑一跑试一下?主要做一些小任务。

2932 次点击
所在节点    Local LLM
13 条回复
forgottencoast
155 天前
微软好像有好几个小模型。
tozp
155 天前
微软刚发布的 phi4-mini 3.8b 是目前效果最好的小模型,可以去看 hf 介绍,我在 Orin Nano 上部署了一个用,很不错。
lchynn
155 天前
@tozp phi4-mini 这个审核太过分了, 让它模拟川普口吻写一个发言稿, 立刻拒绝了, 特么美国粉红模型啊
BernieDu
155 天前
小模型肯定是新出的 qwq32 最好,不过 ollama 默认 q4 需要 20g 显存,你可以等等看有没有人量化 q2 的
Kinnikuman
155 天前
$ ollama run phi4
pulling manifest
pulling fd7b6731c33c... 54% ▕███████████████████████████████████ ▏ 4.9 GB/9.1 GB 104 MB/s 44s



@tozp 我试试这个 phi4
listenfree
155 天前
Q2 量化,我测试了,很不好使
wwhc
155 天前
推荐 Qwen2.5-14B-Instruct-1M-Q5_K_L.gguf 或 Qwen2.5-7B-Instruct-1M-Q6_K_L.gguf ,不建议 Distill 版本,Distill 版本更于擅长于解决推理或数学问题。另外建议直接使用 llama.cpp
Leon6868
155 天前
Qwen2.5 14B .不要用 QwQ ,QwQ 是刷分模型
tabc2tgacd
155 天前
@BernieDu q4 量化后的效果并不好,ollama 提供的就是这种,我昨天测试直接一直卡在思考中了
uncleroot
155 天前
中英翻译和取标题,Qwen 系列应该是开源系列效果最好的。
mU9vX912XopmAoE1
155 天前
@tozp
@BernieDu

https://huggingface.co/spaces/Jellyfish042/UncheatableEval

根據這邊的榜單, 最好的是 Llama-3.2-3B 第二 Qwen2.5-3B 第三 RWKV-x070-World-2.9B-v3-20250211-ctx4096
mortal
154 天前
我用 glm-4-9b
tool2dx
154 天前
@tozp 测试了一下,好强。能秒一堆低参数模型,差不多赶上 deepseek 14b 了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1116817

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX