使用 openai webui 对接较慢的模型的时候，出现了不该有的重试？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

我看到的现象：

我使用 docker 部署了 ollama 和 openai-webui 两个服务，如果使用的模型比较大（ deepseek 671b-q4m 或者 1.58 量化等）推理时间会很慢，一个问题 20 分钟甚至一个小时都是有可能的。

慢我可以等我，我不介意，这都没事。

但是现状是发现比较慢的请求发出之后，在执行完毕后稍微过一小会又会发起一个一样的请求过来，我猜测是 openai-webui 进行的重试；但是在用户侧并没有发起这个重试， docker logs -f 查看容器日志会在一个请求执行之后看到这个重试的结果，就挺耽误事儿的

所以如何排查这次错误重试的请求呢？

另外，如何知道 ollama_llama_server 服务现在正在跑的是什么，除了重启 docker 之外还有什么好办法提前 kill 掉呢？

1 条回复

phpfpm

12 天前

自问自答：

关闭 webui 的

对话的

自动生成标题
和
自动生成对话标签

功能