V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
privater
V2EX  ›  macOS

买大内存 MacBook 的一个意外好处——私人 AI 服务器

  •  
  •   privater · 1 天前 · 3877 次点击
    MacBook Pro M1 Max 64G 可以跑 DeepSeek R1 的大模型当 AI 服务器,当年想都没想过还有这个用途。



    之前本机跑 Llama 3 性能并不好,能力不如大部分收费的模型,但是如今有了 DeepSeek ,一下就山鸡变凤凰,相当于本地跑个 Chatgpt o4 mini 的水平,这就很够用了。

    当然 70B 模型虽然能跑动,回答速度是比较慢的,目测大概 3 tokens/s ,只能用来问适合思考的问题,例如我问了个黑洞视线的问题,花了大约 2 分钟才输出完毕。但是如果降低点要求用 32B 模型,输出能快到 15 tokens/s ,基本和线上服务相似,就非常可用了:

    38 条回复    2025-01-30 15:49:55 +08:00
    winson030
        1
    winson030  
       1 天前 via iPhone
    64 的可以搞搞。我这 8gb 的 air 还是 api 吧。
    qdwang
        2
    qdwang  
       1 天前   ❤️ 14
    私人本地跑大模型,没什么实际意义的。

    1 你只能跑小一些的模型,联网的同公司模型只要比你大,总归性能比你好。
    2 费内存。你模型不载入内存,每次都要冷启动,你模型载入内存,永远占去一大块。
    3 费电,如果是不插电的笔记本,很快电费完了。
    4 速度慢

    除非你
    1. 非常注重隐私
    2. 工作环境没网
    3. 大量本地 rag 需求
    dilidilid
        3
    dilidilid  
       1 天前
    没啥用,玩两次绝大部分人还是会去用线上大模型
    chiaf
        4
    chiaf  
       1 天前 via iPhone
    64G 还是太小了。

    跑 sd 的模型还是挺耗内存的。
    allpass2023
        5
    allpass2023  
       1 天前
    比较好奇,只是耗内存/显存吗? 运行的时候 CPU 和 GPU 占用是怎么样的?
    wsbqdyhm
        6
    wsbqdyhm  
       1 天前 via iPhone
    @qdwang #2 说到点子了,没什么意义。就安装的时候玩一玩,然后换到其他的,时候卸载前玩玩
    234ygg
        7
    234ygg  
       1 天前
    我用 ubuntu server 上的 4090 跑 32b ,显存占用 21864/24564MiB ,GPU 推理功耗 350w 电感唧唧叫,完成推理后不释放显存的话功耗大概 15w ,吐第一个字的等待时间较久,后续我肉眼感觉大概是三五十 token/s ,反正比我阅读速度快多了。
    纯中文对话的限定条件下,32b 的水平大概比 openai 官方目前实装的 3.5 turbo API 差不多,远不如网页订阅版的 4o 和 openai 官方的 4o api (请注意不是第三方假 4o api )。
    整体上我评价为可以作为非常靠谱的中文翻译模型使用了,比之前的外国宝宝们强在能稳定输出中文,其他没看到任何进步。
    ZeroClover
        8
    ZeroClover  
       1 天前
    用 Apple Silicon 跑 LLM 的都建议阅读:

    https://blog.hjc.im/apple-uma-for-llms-problems.html

    基本就属于能跑个玩,但是 Token 生成速度不具备实用价值

    如果专门买 Mac 跑 LLM ,那只能说。。。

    特别是 DeepSeek 的 API 便宜得就像不要钱
    arischow
        9
    arischow  
       1 天前 via iPhone   ❤️ 1
    模型换成社区做的 R1 distilled
    hefish
        10
    hefish  
       1 天前
    我去,我也要我也要,。。。。。我也要搞 64G 的 mac 。。。
    yukino
        11
    yukino  
       1 天前 via Android
    @ZeroClover API 能给我写小黄文吗🤪
    bybyte
        12
    bybyte  
       1 天前
    如果不是对隐私性要求特别强,官网的满血模型更好
    ShadowPower
        13
    ShadowPower  
       1 天前   ❤️ 1
    @hefish 有 64G 内存的 Mac 玩玩还可以,为了跑 LLM 买 64G 内存的 Mac 就不值得了……
    hefish
        14
    hefish  
       1 天前
    @ShadowPower 没事,老板出钱
    chiaf
        15
    chiaf  
       1 天前 via iPhone   ❤️ 2
    @hefish 老板出钱就买 128G 的,64G 还是太小了🤪
    hefish
        16
    hefish  
       1 天前   ❤️ 1
    @chiaf 这倒也是啊。。。也可以多搞几台。。。办公室一人一台嘛。。。
    Donaldo
        17
    Donaldo  
       1 天前
    速度太慢了,只能是体验一下。真要想提供“服务”,不如买 4 张 22g 的 2080ti 。。
    dji38838c
        18
    dji38838c  
       1 天前
    何必呢,要隐私的话,自己云上部署一个 GPU 的不是更好。
    haiku
        19
    haiku  
       23 小时 54 分钟前 via Android
    有海外老哥尝试部署原版不蒸馏 r1 ,$ 6000 跑几个 token/s
    Nasei
        20
    Nasei  
       22 小时 39 分钟前
    我用 m3pro 试过 14b 的模型,我不知道它的生成速度,但我直观感觉就是本地就图一乐,实际就不可用
    levn
        21
    levn  
       22 小时 39 分钟前
    70b 的大小是 32b 的两倍,那么速度应该在 7t/s 左右,为什么下降那么多呢。
    ZeroClover
        22
    ZeroClover  
       22 小时 35 分钟前
    @yukino 自己没试过就不要抖机灵

    OpenAI 官方 API / AWS Bedrock / OpenRouter 这三家黄文和 politics 都没什么问题,除了一些非常过激的模型本身拒绝回答,其他都毫无问题。

    模型训练引入的道德观念得靠 Post Training 解决,这更不是 Apple Silicon 能做到的事情
    ZeroClover
        23
    ZeroClover  
       22 小时 34 分钟前
    @levn 因为带宽不够了
    LnTrx
        24
    LnTrx  
       20 小时 29 分钟前   ❤️ 2
    @qdwang 还有一点是价格。用 API 容易不小心造成大额开支,但自部署可以利用原本闲置的设备,电费、折旧成本相对可控。蒸馏模型虽然知识不行,但目前推理、翻译等已经有一定能力了,可以搞一些很费 token 的活。
    youthfire
        25
    youthfire  
       20 小时 25 分钟前 via iPhone
    我是 m3 96gb ,实际跑 deepseek r1:32b 还是觉得太慢了,别说 70b 了
    buruoyanyang
        26
    buruoyanyang  
       19 小时 52 分钟前
    公司好像有个 a6000 在吃灰,来年了我也去跑个本地的试试
    GabrielleBellamy
        27
    GabrielleBellamy  
       19 小时 21 分钟前   ❤️ 1
    我是 M4 Max 128GB 内存,跑 DeepSeek 32b 非常流畅。
    qiaobeier
        28
    qiaobeier  
       19 小时 17 分钟前
    @yukino 现在所有 AI 都只能写些低年级小学生作文,我女儿四年级就没法用了,1 ~ 2 年级我经常用 GPT 写范文再让她改改,三年级就被老师发现用了 AI😂
    davidqw
        29
    davidqw  
       19 小时 9 分钟前
    32b 的蒸馏日常可用,但不如 671b 本体
    fcten
        30
    fcten  
       19 小时 1 分钟前
    这居然是意外好处吗,我以为买大内存 mac 设备的都是为了本地跑 LLM 的。毕竟 mac 的金子内存一般人没需求是不会拉满的...
    除了跑 LLM 还有哪些需求会用到大内存?视频剪辑?
    youthfire
        31
    youthfire  
       18 小时 44 分钟前
    @GabrielleBellamy 差别那么大?我是 m3 max 96gb 。跑 32b ,按道理显存也足够,甚至还富裕,但是我觉得回答很慢。用的 Open webui ,还经常 network problem ,不过答案仍然会出来。
    youthfire
        32
    youthfire  
       18 小时 41 分钟前
    我发现直接用 ollama 速度很快,用 open webui 调用 ollama 却回答非常慢
    privater
        33
    privater  
    OP
       15 小时 22 分钟前
    @fcten 21 年的时候,哪有什么 AI 模型的概念啊,都是研究员的玩物,大内存是应对全栈开发的,直到 2022 年底 chatgpt 爆火后才慢慢进入视线,实际能轻松跑,还有后面的 pytorch 等库对 M1 系列支持开始。

    这台电脑现在 1 分钟就能解决完所有安装和库的兼容性,下载完模型就能用,这种易用性跟装个浏览器差不多了,21 年想都没法想,我其实感概的是这点
    PandaIsGood
        34
    PandaIsGood  
       14 小时 20 分钟前
    @fcten IDE 吃内存还是挺厉害的,加上常年开一堆浏览器 tab
    feikaras
        35
    feikaras  
       8 小时 3 分钟前
    懂电脑的越来越少了。可惜。
    就 mac 那个速度,你给他 192g 都不顶用啊。
    xiaoqi6pi112
        36
    xiaoqi6pi112  
       6 小时 26 分钟前
    @ZeroClover 我之前看有人用 mac mini 做了一个集群
    moudy
        37
    moudy  
       1 小时 50 分钟前
    @qdwang #2 4. 想玩 nsfw ??
    yunpeng2015
        38
    yunpeng2015  
       52 分钟前
    m3 max 36G ,跑 r1 14b 很流畅,32b 可以运行但输出比较慢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1810 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 08:41 · PVG 16:41 · LAX 00:41 · JFK 03:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.