ubuntu + 双 A6000 + R1-q4-70b 模型
GPU 负载、输出性能 见下图..
各位大佬有没有什么环境配置的优化建议? 另外换 llama.cpp 会有显著提升吗?
![]() |
1
maskerTUI 4 天前 ![]() ollama 本质还是调用 llama.cpp ,想要提升得换后端推理引擎,比如 vLLM 。
|
![]() |
3
Chihaya0824 4 天前 ![]() R1-Llama-70B-Distill-Q5KM-GGUF
VLLM 单次(类似 ollama ) Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 28.3 tokens/s, Running: 1 reqs, Swapped: 0 reqs, Pending: 0 reqs, GPU KV cache usage: 0.4%, CPU KV cache usage: 0.0%. 双卡并发 (并行 12 个请求) Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 98.7 tokens/s, Running: 12 reqs, Swapped: 0 reqs, Pending: 0 reqs, GPU KV cache usage: 2.7%, CPU KV cache usage: 0.0%. 差不多 3 到 4 倍的样子 |
![]() |
4
maskerTUI 4 天前 ![]() @crac 实际使用的话,我在公司的相同的硬件上测试 deepseek-r1:32b ,ollama 最多出 30 字/秒,vLLM 最多每秒 60 字/秒。使用上提升很大。
|
![]() |
6
crac OP ![]() @Chihaya0824 效果反馈~ 切换 VLLM 后 输出速度直接提升一倍~
|