V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhyim
V2EX  ›  Local LLM

8 卡 H100 部署 DeepSeekR1 求助

  •  
  •   zhyim · 5 天前 via iPhone · 631 次点击
    公司要在本地部署 ds ,搞了一台服务器,让我部署一下,内存 DDR5 2T ,显存 640G ,我现在 llamacpp 部署的 q4 量化版,并发设置了 4 ,但是 4 个人同时用的时候输出就会很慢。求推荐个可以支持 10 个并发的推理框架。vllm 我试了说是不支持 deepseek2 ,我是下载的 gguf 文件
    dayeye2006199
        1
    dayeye2006199  
       5 天前   ❤️ 1
    sglang
    raycool
        2
    raycool  
       5 天前
    是 404G 大小的模型文件吗?
    这个 8 卡可以部署成功?
    zhyim
        3
    zhyim  
    OP
       5 天前 via iPhone
    @raycool 是的,用 llamacpp 和 ollama 都能成功,就是并发不行
    zhyim
        4
    zhyim  
    OP
       5 天前 via iPhone
    @dayeye2006199 也是不支持 deepseek2 ,我下载的别人的量化模型,单 gguf
    JackyTsang
        5
    JackyTsang  
       3 天前
    SGLang 部署。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4639 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 09:48 · PVG 17:48 · LAX 01:48 · JFK 04:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.