V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
intermission
V2EX  ›  分享创造

LLM 推理显存显卡计算器:快速估算部署需求

  •  
  •   intermission · 11 天前 · 1139 次点击

    在工作中,我经常需要回答客户关于某个模型部署所需的显卡数量。但由于不同显卡的显存规格各不相同,大多数人很难记住每种配置,每次回答都需要临时查询。为了解决这个问题,我开发了一个 LLM 推理显存/显卡需求计算器:

    LLM 推理显存计算器

    它可以快速计算模型推理所需的显存,并估算所需的显卡数量,欢迎试用!

    6 条回复    2025-02-11 12:38:19 +08:00
    podel
        1
    podel  
       11 天前
    没有 FP4 量化。
    DeepSeek 也有 1.55 量化这些数据没有
    111111111111
        2
    111111111111  
       11 天前
    计算结果参考意义不大啊

    deepseek-r1:32b 实测一个 22G 的显卡就够了,20 token/s ,吃掉 20G 内存
    intermission
        3
    intermission  
    OP
       11 天前
    @111111111111 32B 的模型显存 22G 就够吗,参数是用 0.5 个字节存的?
    lovestudykid
        4
    lovestudykid  
       11 天前
    实际的量化类型比你提供的选择多得多...还是直接看模型大小好了
    YsHaNg
        5
    YsHaNg  
       11 天前 via iPhone
    ollama.com 默认都是 q4 量化另外还有 q4_0 q3_s 等等
    qieqie
        6
    qieqie  
       11 天前
    建议 Inference 额外显存里加上最大 context length 作为参数。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2899 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 09:00 · PVG 17:00 · LAX 01:00 · JFK 04:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.