我做了一个 Ollama JSONL 批量推理工具，除了 Ollama 还支持 Deepseek 等 OpenAI Style 兼容 API

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

你好啊，

我最近在做模型微调时，需要对一些数据进行预处理和生成一些 DPO 使用 Rejected 的负面数据（虽然我后来才发现智谱的 GLM4-Flash 有提供免费的批量推理），我很自然的想要使用 Ollama 上部署的 Qwen3 30B A3B ，但是意外的发现似乎还没有 Ollama 适用的 JSONL 批量推理工具。我总觉得它本应该存在，于是我就做了一个。

https://github.com/mili-tan/Onllama.OllamaBatch

当然使用起来也非常简单，如果你的 Ollama 在默认端口最简单的方法是只需要将你的 JSONL 重命名成 input.jsonl 丢到和程序同一个目录底下然后运行就可以了，当然记得把 JSONL 中的模型名称改成你需要的模型名称，或者用 --model qwen3:30b 参数来指定你的模型名称。还有记得参考这里配置一下并发（ CPU 推理和混合推理是没有并发的，改了环境变量似乎也没用）。更多的用法可以参考 --help 中的帮助。

顺带一提因为 Deepseek 的夜间半价，所以我也做了 OpenAI Style API 的支持，--use-oai --oai-url=https://api.deepseek.com/v1/chat/completions --oai-sk=sk-balabalabala 使用起来就像这样。另外因为我个人的偏好默认的输出格式是直接将助手的回答添加到消息列表中，如果你希望获得与 OpenAI 相似的包含result的结果你也可以使用 --oai-output 来指定。另外针对一些厂商的并发和 RPM 限制我也添加了一些对应的参数你也可以参考下 --help 来看看有没有合适的。

ollama

jsonl

批量推理

2 条回复

coefuqin

20 天前

批量推理还用 ollama ？它不支持 tensor parallelism infrense 。你做成支持 llama.cpp/vllm/sglang 的都更 ok 一点。
ollama 就是业余的玩具而已，粘上它只会显得不专业。

mili100

20 天前

@coefuqin 我的工作站是 3090 单机单卡，用不到 Tensor Parallelism 。Ollama 的模型管理非常方便只需要 `ollama run`就搞定了，我也希望生成一些 Rejected 用的垃圾还要花上几十分钟来搭环境。我觉得 Ollama 很适合我的用例，所以什么不呢。