使用 openai webui 对接较慢的模型的时候，出现了不该有的重试？

我看到的现象：

我使用 docker 部署了 ollama 和 openai-webui 两个服务，如果使用的模型比较大（ deepseek 671b-q4m 或者 1.58 量化等）推理时间会很慢，一个问题 20 分钟甚至一个小时都是有可能的。

慢我可以等我，我不介意，这都没事。

但是现状是发现比较慢的请求发出之后，在执行完毕后稍微过一小会又会发起一个一样的请求过来，我猜测是 openai-webui 进行的重试；但是在用户侧并没有发起这个重试， docker logs -f 查看容器日志会在一个请求执行之后看到这个重试的结果，就挺耽误事儿的

所以如何排查这次错误重试的请求呢？

另外，如何知道 ollama_llama_server 服务现在正在跑的是什么，除了重启 docker 之外还有什么好办法提前 kill 掉呢？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.