我看到的现象:
我使用 docker 部署了 ollama 和 openai-webui 两个服务,如果使用的模型比较大( deepseek 671b-q4m 或者 1.58 量化等)推理时间会很慢,一个问题 20 分钟甚至一个小时都是有可能的。
慢我可以等我,我不介意,这都没事。
但是现状是发现比较慢的请求发出之后,在执行完毕后稍微过一小会又会发起一个一样的请求过来,我猜测是 openai-webui 进行的重试;但是在用户侧并没有发起这个重试, docker logs -f 查看容器日志会在一个请求执行之后看到这个重试的结果,就挺耽误事儿的
所以如何排查这次错误重试的请求呢?
另外,如何知道 ollama_llama_server 服务现在正在跑的是什么,除了重启 docker 之外还有什么好办法提前 kill 掉呢?
1
phpfpm OP 自问自答:
关闭 webui 的 对话的 自动生成标题 和 自动生成对话标签 功能 |