8 卡 H100 部署 DeepSeekR1 求助 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 68 天前的主题，其中的信息可能已经有所发展或是发生改变。

公司要在本地部署 ds ，搞了一台服务器，让我部署一下，内存 DDR5 2T ，显存 640G ，我现在 llamacpp 部署的 q4 量化版，并发设置了 4 ，但是 4 个人同时用的时候输出就会很慢。求推荐个可以支持 10 个并发的推理框架。vllm 我试了说是不支持 deepseek2 ，我是下载的 gguf 文件

15 条回复 • 2025-03-04 16:46:09 +08:00

1

dayeye2006199

68 天前

1

sglang

2

raycool

68 天前

是 404G 大小的模型文件吗？
这个 8 卡可以部署成功？

3

zhyim

OP

68 天前 via iPhone

@raycool 是的，用 llamacpp 和 ollama 都能成功，就是并发不行

4

zhyim

OP

68 天前 via iPhone

@dayeye2006199 也是不支持 deepseek2 ，我下载的别人的量化模型，单 gguf

5

JackyTsang

67 天前

SGLang 部署。

6

haimianbihdata

53 天前

@JackyTsang 这个支持并发怎样

7

weiming

52 天前

vllm + awq 量化

8

zhyim

OP

52 天前

@weiming awq 推理速度特别慢，只有 6t/s

9

weiming

52 天前

@zhyim 不应该啊，我用 A800x8 都有 30t/s 。用这个配置, https://huggingface.co/cognitivecomputations/DeepSeek-R1-AWQ

10

zhyim

OP

52 天前

@weiming 能支持多少并发啊，我用的 GPUStack 里面那个 vllm

11

volvo007

52 天前

请问 op ，8 卡的外部设备是什么。比如这 8 张卡都是 pcie 版本吗？那不是只能通过 pcie 通信，速度上不去吧。而使用 nvlink 的话，还不如直接买 HGX 节点？因为最近我们这也想部署，但是一开始是双卡，后面会慢慢加，所以来请教一下

12

zhyim

OP

52 天前

@volvo007 我不知道啊，我们只负责部署，硬件这块 IT 搞的，是 nvlink 的

13

volvo007

52 天前

@zhyim 还是感谢哈，知道是 nvlink 也是很好的线索了

14

weiming

52 天前

@zhyim vllm 0.7.2 awq
Parallel request Token per second （ Total ） Token per second(per request)
1 30 30
10 81 10
30 144 6.2
50 180 5

15

weiming

52 天前

4 并发 17t/s 。a800 没有原生 fp8 支持，算力大打折扣。而且最近 vllm 在 H 系列上的优化 patch 挺多的，拍脑袋至少还能再快个 30%。

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 1789 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 24ms · UTC 16:16 · PVG 00:16 · LAX 09:16 · JFK 12:16
Developed with CodeLauncher
♥ Do have faith in what you're doing.