最近开始逐步把 ollama 迁移到 llamacpp 了,起因是 ollama 不是所有模型都支持并行,迁移过来后发现 llamacpp 原来挺快的。
通过 llamaswap 能方便使用多个模型,前期迁移也能保留 ollama 通过 llamaswap 代理请求过去
而且 llamacpp 有很多 ollama 没有的特性,且能控制的内容更多,比如能支持更多的 embeding 方式,更控制细粒度的参数,能支持推测推理,支持 lora 等等
非常建议一试
我自己的一些 llamaswap 配置
models:
# used for dayflow, about 2k context
qwen3-vl:8b:
cmd: >
/app/llama-server --port ${PORT}
-np 2 -cb -c 8192 -ctk q8_0 -ctv q8_0 -ngl 99 --jinja
-hf unsloth/Qwen3-VL-8B-Instruct-GGUF:Q4_K_M --mmproj /models/qwen3-vl-8b-mmproj-F16.gguf
-a 'qwen3-vl:8b'
qwen3-vl-thinking:32b:
cmd: >
/app/llama-server --port ${PORT}
-np 2 -cb -c 8096 -ngl 99 --jinja
-hf unsloth/Qwen3-VL-32B-Thinking-GGUF:Q4_K_M --mmproj /models/qwen3-vl-32b-mmproj-F16.gguf
-a 'qwen3-vl:32b'
ttl: 360
aliases:
- qwen3-vl
- qwen3-vl:32b
gpt-oss:20b:
cmd: /app/llama-server --port ${PORT} -hf ggml-org/gpt-oss-20b-GGUF -c 0 --jinja
ttl: 360
aliases:
- gpt-oss
qwen3-embedding:4b:
cmd: >
/app/llama-server --port ${PORT}
-hf Qwen/Qwen3-Embedding-4B-GGUF:Q4_K_M
--embedding --pooling last -ub 8192 --verbose-prompt --jinja
ttl: 360
qwen3-reranker:4b:
cmd: /app/llama-server --port ${PORT} -hf QuantFactory/Qwen3-Reranker-4B-GGUF --reranking
ttl: 360
groups:
always:
persistent: true
swap: false
exclusive: false
members:
- 'qwen3-vl:8b'
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.