V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
clear
V2EX  ›  问与答

本地跑 QwQ 32B K4 或 DeepSeek R1 70B K4 以上量化,什么配置性价比最高?

  •  
  •   clear · 43 天前 · 462 次点击
    这是一个创建于 43 天前的主题,其中的信息可能已经有所发展或是发生改变。

    希望能够到 50tokens/s 以上。

    另外问下请问怎么计算量化后 GGUF 对 CPU 和内存的性能要求,有一台老机器跑 GGUF ,速度非常慢,但是内存和 CPU 都没有占满,CPU 仅占用 40%。

    除了内存的吞吐,对 CPU 有什么要求吗?还是需要什么特别的配置? QwQ 32B K4 或 DeepSeek R1 70B K4 对内存带宽要求多少?

    ShadowPower
        1
    ShadowPower  
       43 天前   ❤️ 2
    公式非常简单,每秒生成的 token 数( token/s )= 内存带宽( Bytes/s )/ 每个 token 的数据传输量( Bytes/token )

    举个例子:
    参数量:70B ( 70 × 10^9 )
    参数精度:float16 (2 Bytes)
    带宽:1TB/s ( 10^12 Bytes/s )

    理论性能:
    10^12 / (70 × 10^9 × 2) ≈ 7.14 token/s
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2807 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 00:18 · PVG 08:18 · LAX 17:18 · JFK 20:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.