请教模型部署和管理的问题

搞了 4 张 4090d 私有化部署一套环境给公司一些团队用，目前遇到几个问题请教一下（当然不排除个人能力问题，没有做部署/参数上的优化）

模型管理问题，模型涉及语言、嵌入、重排序等类型，想统一管理，是否有比较好的方案？现在用的是 xinference.
从 ollama 切换到 xinference 原因是 ollama 不支持 rerank 模型，但是使用中发现，同一个 llm 模型，ollama 上的模型比 xinference 响应更快，是因为参数优化问题？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.