![]() |
1
JetMac 13 天前
不懂,粗略算的话 1B1G 显存内存,流畅运行至少需要 700G 显存、内存?
|
![]() |
2
Chism 13 天前 via iPhone
油管有相关的节目,需要 10 个英伟达 5090 显卡或者 20 个 4090
|
3
nicholasxuu 12 天前
便宜的话,有个压缩版的 671B ,192G 的 mac studio 能跑( input token 要限制在 2000 以内,不然内存会炸)。
正常的话需要大概价值 200w 元的 h10 。 |
![]() |
4
blackmolycat 12 天前
有看过配置表,8 个 A100
|
![]() |
5
x1aoYao 12 天前
用 CPU 推理速度怎么样呢?成本应该比 GPU 低,毕竟内存比显存便宜。例如用 128 核的 EPYC 9755 CPU 加 1T 内存,不到 15 万
|
![]() |
7
mingtdlb 11 天前
@blackmolycat 配置表出处?
|
![]() |
8
blackmolycat 8 天前
@mingtdlb 忘记出处了,但是你完全可以问 deepseek 自身啊,这种问题丢给 AI 全网搜索一下就得到答案了。
|
![]() |
9
shuimugan 5 天前
什么并发要求?
https://x.com/carrigmat/status/1884244369907278106 6000 美元,用双路 epyc + 24 通道 ddr5 跑 q8 规格,6~8 token/s ,实际功耗不到 400w ,当然随着上下文越大每秒 token 数会下降,而且不出意外并发只有 1 。 然后最近又出了一个更多快好省的方案 KTransformers https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md https://www.reddit.com/r/LocalLLaMA/comments/1ilzcwm/671b_deepseekr1v3q4_on_a_single_machine_2_xeon/ 将闲置的专家从内存中卸载、将核心专家放入显存而边缘专家放入内存,和 23 年年底上海交大那个 PowerInfer 思路很像,充分利用 CPU 和 GPU 的资源,按照上面的 cpu 方案加几块卡就够了。 需求不急的话可以等一波,先用着各种供应商提供的 api ( together.ai 、fireworks.ai 等) |