V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Unclev21x
V2EX  ›  Apple

苹果刚刚推出了新款 Mac Studio

  •  
  •   Unclev21x · 31 天前 · 5485 次点击

    可选配 512GB 统一内存,有人冲吗?

    46 条回复    2025-03-16 08:38:44 +08:00
    ShadowPower
        1
    ShadowPower  
       31 天前
    太贵了,能按月订阅 42 年的 cursor 了
    SkywalkerJi
        2
    SkywalkerJi  
       31 天前 via Android
    7w5 可以五张 4090 了
    liprais
        3
    liprais  
       31 天前   ❤️ 3
    @SkywalkerJi 你那五张 4090 有多少显存来着?
    alexcding
        4
    alexcding  
       31 天前
    M3 Ultra 是最后一代胶水, 肯花这个钱不如等今年的 Mac Pro, 有 单独设计的 M4 Ultra, 估计带宽更大

    shuimugan
        5
    shuimugan  
       31 天前   ❤️ 3
    32B 模型 4bit 量化在 M2 Ultra 可以跑到 42token/s (开启 KV Cache ),而 deepseek v3 和 r1 的激活参数量都是 37B ,总参数量 671B ,在 512GB 内存上跑 4bit 量化为主,大体上也是 40~45token/s 左右(对比 M2 Ultra 算力和带宽的提升和激活参数变化所得)。
    对比 deepseek 现在的官网价格,v3 每百万 token 输出为 8 元,r1 是 16 元,用 Mac Studio M3 Ultra 512GB 拿来跑 deepseek v3 的话大概是 74249/8 * 1000000 / 45 / 86400 = 2387 天回本,跑 r1 回本速度快一倍,只需 1193 天。
    Themyth
        6
    Themyth  
       31 天前
    @shuimugan 赞!你这样的人 销售都骗不到。。。。。
    icyalala
        7
    icyalala  
       31 天前   ❤️ 1
    虽然但是,你买个 API 就只能聊天聊到死,但你买个 Mac 还能写代码跑渲染,还能剪视频🐶
    PainAndLove
        8
    PainAndLove  
       31 天前
    这。。。。等于是 macstudio 不配上 m4ultra . 还是说 直接跳过了 m4ultra 来了个 m4extreme?
    ZE3kr
        9
    ZE3kr  
       30 天前 via iPhone
    打算冲丐版
    WuSiYu
        10
    WuSiYu  
       30 天前
    512 对 LLM 负载意义不大了,对于这个量级的 memory ,mac 的 memory bandwidth 和 gpu peak flops 都不太够看,用人话说就是跑更大的模型能跑但慢到没法用
    icyalala
        11
    icyalala  
       30 天前
    @WuSiYu 上面说 40~45token/s ,Twitter 上有人预估 20token/s ,也算能用了
    billytom
        12
    billytom  
       30 天前
    根据目前 M4 max 128GB 跑 R1 qwen 70b 就只有 18-20tk 来看,这玩意如果跑 R1 671b ,估摸也就是 9-10tks
    chesha1
        13
    chesha1  
       30 天前
    @shuimugan #5 官方满血版是大部分 fp8 (还有一些 bp16 和 fp32 ),int4 效果肯定差一点,而且电也是要钱的
    srwxyz
        14
    srwxyz  
       30 天前 via iPhone
    @alexcding 有道理,不过以后不用胶水技术了,studio 上也会上和 pro 一样的芯吗,这差距要怎么拉开
    gxt92
        15
    gxt92  
       30 天前
    @alexcding M4 Ultra 有啥消息么?这次只出了 M3 Ultra 有点奇怪,藏着掖着
    kenniewwwww
        16
    kenniewwwww  
       30 天前
    谢谢,我选择 revolut metal 免费送的 perplexity pro
    bytesfold
        17
    bytesfold  
       30 天前 via iPhone
    似乎不支持 ECC ?
    ZeekChatCom
        18
    ZeekChatCom  
       30 天前
    这个价格,鹤岗可以买 2 套房子了
    loveshuyuan
        19
    loveshuyuan  
       30 天前
    不知道什么时候可以上国补
    qxmqh
        20
    qxmqh  
       30 天前   ❤️ 1
    Apple M3 Ultra (32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)
    512GB 统一内存
    16TB 固态硬盘
    正面:两个雷雳 5 端口,一个 SDXC 卡插槽
    背面:四个雷雳 5 端口,两个 USB-A 端口,一个 HDMI 端口,一个 10Gb 以太网端口,一个耳机插孔
    顶配需要:RMB 4531/月 (24 期)或 RMB 108,749
    wy315700
        21
    wy315700  
       30 天前
    好家伙,512G 内存。800G/s 内存带宽
    noahhhh
        22
    noahhhh  
       30 天前 via Android
    @bytesfold 所有苹果芯片的机器都不支持,那么大内存没 ECC 半个月就会出点问题
    chandlerbing9317
        23
    chandlerbing9317  
       30 天前   ❤️ 1
    @ShadowPower #1 本来还感觉不到到底有多贵,你那么一说我就发现是真的贵了,毕竟一个月的 cursor 我都不舍得开
    ShadowPower
        24
    ShadowPower  
       30 天前
    @bytesfold 只支持所有 DDR5 都支持的片上 ECC ,不过那是因为 DDR5 没有这玩意无法稳定使用……
    像 Intel 、AMD 那种 CPU 和内存之间的 ECC 确实没有。
    alexcding
        25
    alexcding  
       30 天前
    @gxt92 流言是晚些时候出新的 Mac Pro
    alexcding
        26
    alexcding  
       30 天前
    @srwxyz studio 应该是 Max 起步吧.

    M5 系列芯片将采用台积电的 SoIC (系统级集成芯片)封装技术。这种高密度 3D 芯片堆叠技术允许多个芯片直接垂直堆叠,从而实现更高的集成度和性能。特别是,苹果计划在 M5 Pro 、M5 Max 和 M5 Ultra 等高端型号中采用 SoIC-MH (水平成型) 2.5D 封装方式,以优化散热性能和生产良率。
    auta
        27
    auta  
       30 天前
    @loveshuyuan 国补限额 2000 ,只能相当于一张优惠券。
    mkdirmushroom
        28
    mkdirmushroom  
       30 天前
    @shuimugan 有人测 192GB 的 M2 Ultra 1.5bit 量化后的 671b R1 速度是 14t/s
    mkdirmushroom
        29
    mkdirmushroom  
       30 天前
    @shuimugan 在内存带宽基本上没怎么变的情况下,我个人猜测目前即使是 512GB 的统一内存,速度也不会超过 20t/s
    bytesfold
        30
    bytesfold  
       30 天前 via iPhone
    @noahhhh 这确实很让人担心,这还怎么生产力呢。。
    bytesfold
        31
    bytesfold  
       30 天前 via iPhone
    @ShadowPower 长时间使用感觉还是用得上,最大 512G 结果没 ECC 。。话说 Nvidia 专业卡和非专业卡主要区别就是 ECC ,显存了
    loveshuyuan
        32
    loveshuyuan  
       30 天前
    @auta 2000 也不少了,在想要等国补还是首发买
    WuSiYu
        33
    WuSiYu  
       30 天前
    @icyalala 算了下,都 q6 量化的话,只考虑权重访存,70b dense 模型(如 qwen )的理论极限是 20+ token/s ,R1 671B 的 moe 模型,每次激活 37B 参数,理论极限 40+ token/s ,实际考虑计算和 context 大概折半,用 q6 等量化还要打折

    不算不能用,但也不算快,100b+的模型只能推 moe 的,但 moe 模型恰恰就是大规模场景才能把成本降下来(冗余专家并行)。所以除非有涉密需求,不如与其 7w+买个这,还是租 API 比较划算
    WuSiYu
        34
    WuSiYu  
       30 天前
    @WuSiYu 打错了,前面是 q4
    YsHaNg
        35
    YsHaNg  
       30 天前
    @billytom R1 qwen 70b 不是 moe 模型
    icyalala
        36
    icyalala  
       30 天前
    @WuSiYu 其实如果单纯考虑 LLM 调用性价比的话,无论如何本地部署都比不上在线 API ,毕竟本地部署用户量上不来,也用不上 batch ,总的吞吐量肯定不那么经济。。。

    但是单纯说 Mac 的话,它不一定只用于 LLM ,所以性价比没法直接比较
    jqknono
        37
    jqknono  
       30 天前
    @shuimugan 跑 R1 就未必是 45token/s 的输出了
    noahhhh
        38
    noahhhh  
       29 天前 via Android
    @bytesfold 4090 也可以开 ecc ,只是有 1.5G 显存用于校验,性能也会损失
    dongfanga
        39
    dongfanga  
       29 天前
    @shuimugan 现在 qwen 新出的 32B 跟 R1 接近,那么用新的 Mac Studio 是否更具可用性?
    shuimugan
        40
    shuimugan  
       29 天前 via Android
    @dongfanga 可行啊,我玩了一天了,6bit 量化下回答质量和 grok3 差不多
    shuimugan
        41
    shuimugan  
       29 天前 via Android
    @dongfanga 但是两者的激活参数差不多,速度上差距不大,得具体实测所有题目才好说,我只测了代码能力。而且 qwq-32b 跑起来条件太简单了,搞两张 16-24g 显存的卡,2 张 a770 都可以没什么压力
    shuimugan
        42
    shuimugan  
       29 天前
    @mkdirmushroom
    @jqknono
    我的 Mac Studio 就是 192GB 的 M2 Ultra ,对于 M3 Ultra 跑 deepseek V3/R1 的速度我意见和 33 楼一致,最多是随着上下文越大速度不断衰减
    dongfanga
        43
    dongfanga  
       29 天前
    @shuimugan 主要是综合来看,本地跑非类似 r1 这种庞大的模型,mac studio 综合来看真的性价比高,省电噪音少,pc 平台真的感觉自己在开飞机
    feikaras
        44
    feikaras  
       29 天前 via iPhone
    @dongfanga 为啥不是 eypc 量大管饱? mac 他啥时候性价比了。本地部署大模型应该和个人用户无关,个人只管用别人给你做好的入口。
    mewking
        45
    mewking  
       24 天前
    @shuimugan 请问这个 2*770 的玩法有没有部署例子?貌似是最便宜的 16G 卡。如果 PCIE 槽一个 X16 ,一个 X4 ,会降低很多性能吗
    shuimugan
        46
    shuimugan  
       20 天前   ❤️ 1
    @mewking pcie 通道速度不会降低多少性能,现阶段 ExoLabs 的方案是靠网络通信都能玩,推理模型交换数据挺少的,刚好新鲜出炉一个部署案例 https://www.bilibili.com/video/BV1FvQrYQEPc
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1247 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 17:28 · PVG 01:28 · LAX 10:28 · JFK 13:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.