希望能够到 50tokens/s 以上。
另外问下请问怎么计算量化后 GGUF 对 CPU 和内存的性能要求,有一台老机器跑 GGUF ,速度非常慢,但是内存和 CPU 都没有占满,CPU 仅占用 40%。
除了内存的吞吐,对 CPU 有什么要求吗?还是需要什么特别的配置? QwQ 32B K4 或 DeepSeek R1 70B K4 对内存带宽要求多少?
![]() |
1
ShadowPower 43 天前 ![]() 公式非常简单,每秒生成的 token 数( token/s )= 内存带宽( Bytes/s )/ 每个 token 的数据传输量( Bytes/token )
举个例子: 参数量:70B ( 70 × 10^9 ) 参数精度:float16 (2 Bytes) 带宽:1TB/s ( 10^12 Bytes/s ) 理论性能: 10^12 / (70 × 10^9 × 2) ≈ 7.14 token/s |