![]() |
1
ShadowPower 31 天前
太贵了,能按月订阅 42 年的 cursor 了
|
2
SkywalkerJi 31 天前 via Android
7w5 可以五张 4090 了
|
![]() |
3
liprais 31 天前 ![]() @SkywalkerJi 你那五张 4090 有多少显存来着?
|
![]() |
4
alexcding 31 天前
|
![]() |
5
shuimugan 31 天前 ![]() 32B 模型 4bit 量化在 M2 Ultra 可以跑到 42token/s (开启 KV Cache ),而 deepseek v3 和 r1 的激活参数量都是 37B ,总参数量 671B ,在 512GB 内存上跑 4bit 量化为主,大体上也是 40~45token/s 左右(对比 M2 Ultra 算力和带宽的提升和激活参数变化所得)。
对比 deepseek 现在的官网价格,v3 每百万 token 输出为 8 元,r1 是 16 元,用 Mac Studio M3 Ultra 512GB 拿来跑 deepseek v3 的话大概是 74249/8 * 1000000 / 45 / 86400 = 2387 天回本,跑 r1 回本速度快一倍,只需 1193 天。 |
![]() |
7
icyalala 31 天前 ![]() 虽然但是,你买个 API 就只能聊天聊到死,但你买个 Mac 还能写代码跑渲染,还能剪视频🐶
|
![]() |
8
PainAndLove 31 天前
这。。。。等于是 macstudio 不配上 m4ultra . 还是说 直接跳过了 m4ultra 来了个 m4extreme?
|
![]() |
9
ZE3kr 30 天前 via iPhone
打算冲丐版
|
![]() |
10
WuSiYu 30 天前
512 对 LLM 负载意义不大了,对于这个量级的 memory ,mac 的 memory bandwidth 和 gpu peak flops 都不太够看,用人话说就是跑更大的模型能跑但慢到没法用
|
![]() |
12
billytom 30 天前
根据目前 M4 max 128GB 跑 R1 qwen 70b 就只有 18-20tk 来看,这玩意如果跑 R1 671b ,估摸也就是 9-10tks
|
![]() |
16
kenniewwwww 30 天前
谢谢,我选择 revolut metal 免费送的 perplexity pro
|
17
bytesfold 30 天前 via iPhone
似乎不支持 ECC ?
|
![]() |
18
ZeekChatCom 30 天前
这个价格,鹤岗可以买 2 套房子了
|
19
loveshuyuan 30 天前
不知道什么时候可以上国补
|
![]() |
20
qxmqh 30 天前 ![]() Apple M3 Ultra (32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)
512GB 统一内存 16TB 固态硬盘 正面:两个雷雳 5 端口,一个 SDXC 卡插槽 背面:四个雷雳 5 端口,两个 USB-A 端口,一个 HDMI 端口,一个 10Gb 以太网端口,一个耳机插孔 顶配需要:RMB 4531/月 (24 期)或 RMB 108,749 |
![]() |
21
wy315700 30 天前
好家伙,512G 内存。800G/s 内存带宽
|
23
chandlerbing9317 30 天前 ![]() @ShadowPower #1 本来还感觉不到到底有多贵,你那么一说我就发现是真的贵了,毕竟一个月的 cursor 我都不舍得开
|
![]() |
24
ShadowPower 30 天前
@bytesfold 只支持所有 DDR5 都支持的片上 ECC ,不过那是因为 DDR5 没有这玩意无法稳定使用……
像 Intel 、AMD 那种 CPU 和内存之间的 ECC 确实没有。 |
![]() |
26
alexcding 30 天前
@srwxyz studio 应该是 Max 起步吧.
M5 系列芯片将采用台积电的 SoIC (系统级集成芯片)封装技术。这种高密度 3D 芯片堆叠技术允许多个芯片直接垂直堆叠,从而实现更高的集成度和性能。特别是,苹果计划在 M5 Pro 、M5 Max 和 M5 Ultra 等高端型号中采用 SoIC-MH (水平成型) 2.5D 封装方式,以优化散热性能和生产良率。 |
![]() |
27
auta 30 天前
@loveshuyuan 国补限额 2000 ,只能相当于一张优惠券。
|
28
mkdirmushroom 30 天前
@shuimugan 有人测 192GB 的 M2 Ultra 1.5bit 量化后的 671b R1 速度是 14t/s
|
29
mkdirmushroom 30 天前
@shuimugan 在内存带宽基本上没怎么变的情况下,我个人猜测目前即使是 512GB 的统一内存,速度也不会超过 20t/s
|
31
bytesfold 30 天前 via iPhone
@ShadowPower 长时间使用感觉还是用得上,最大 512G 结果没 ECC 。。话说 Nvidia 专业卡和非专业卡主要区别就是 ECC ,显存了
|
32
loveshuyuan 30 天前
@auta 2000 也不少了,在想要等国补还是首发买
|
![]() |
33
WuSiYu 30 天前
@icyalala 算了下,都 q6 量化的话,只考虑权重访存,70b dense 模型(如 qwen )的理论极限是 20+ token/s ,R1 671B 的 moe 模型,每次激活 37B 参数,理论极限 40+ token/s ,实际考虑计算和 context 大概折半,用 q6 等量化还要打折
不算不能用,但也不算快,100b+的模型只能推 moe 的,但 moe 模型恰恰就是大规模场景才能把成本降下来(冗余专家并行)。所以除非有涉密需求,不如与其 7w+买个这,还是租 API 比较划算 |
![]() |
36
icyalala 30 天前
@WuSiYu 其实如果单纯考虑 LLM 调用性价比的话,无论如何本地部署都比不上在线 API ,毕竟本地部署用户量上不来,也用不上 batch ,总的吞吐量肯定不那么经济。。。
但是单纯说 Mac 的话,它不一定只用于 LLM ,所以性价比没法直接比较 |
![]() |
41
shuimugan 29 天前 via Android
@dongfanga 但是两者的激活参数差不多,速度上差距不大,得具体实测所有题目才好说,我只测了代码能力。而且 qwq-32b 跑起来条件太简单了,搞两张 16-24g 显存的卡,2 张 a770 都可以没什么压力
|
![]() |
42
shuimugan 29 天前
@mkdirmushroom
@jqknono 我的 Mac Studio 就是 192GB 的 M2 Ultra ,对于 M3 Ultra 跑 deepseek V3/R1 的速度我意见和 33 楼一致,最多是随着上下文越大速度不断衰减 |
![]() |
44
feikaras 29 天前 via iPhone
@dongfanga 为啥不是 eypc 量大管饱? mac 他啥时候性价比了。本地部署大模型应该和个人用户无关,个人只管用别人给你做好的入口。
|
![]() |
46
shuimugan 20 天前 ![]() @mewking pcie 通道速度不会降低多少性能,现阶段 ExoLabs 的方案是靠网络通信都能玩,推理模型交换数据挺少的,刚好新鲜出炉一个部署案例 https://www.bilibili.com/video/BV1FvQrYQEPc
|