V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
beginor
V2EX  ›  Apple

ANE 可以跑大模型了!

  •  
  •   beginor · 4 天前 · 1459 次点击

    发现了这个 ANEMLL 项目, 可以用 ANE 来跑大模型, 项目刚刚上线 github 没多久, 目前只支持 llama 系列模型, 也包括 deepseek 蒸馏过的 llama 3 。

    作者也上传了一些模型到 huggingface

    经过简单测试和对比, 生成速度大概是 mlx/llama.cpp 的 1/3 ,但是只使用 30% 左右的 npu 性能, 功耗只有 2 ~ 3 瓦, 是显卡功耗的 1/10 。

    如果以后能够让 npu 火力全开, 说不定速度能追上 mlx 。

    https://x.com/anemll/status/1890282119685116051

    ANE 终于可以告别电阻器的外号了!

    7 条回复    2025-02-18 22:25:15 +08:00
    EchoWhale
        1
    EchoWhale  
       4 天前 via iPhone
    求科普,是不是只能跑蒸馏过?像 70b 之类的是不行吗
    kemchenj
        2
    kemchenj  
       4 天前
    “只使用 30% 的 npu 性能”这里面的 30% 是怎么得出来的?
    beginor
        3
    beginor  
    OP
       4 天前 via Android   ❤️ 1
    beginor
        4
    beginor  
    OP
       4 天前 via Android
    @EchoWhale 目前的 npu 一般都是移动设备或者 PC ,所以都是跑小模型, 功耗很低。

    不过也不排除以后会有企业级 npu 出现
    WuSiYu
        5
    WuSiYu  
       3 天前
    有点意思,ANE 的 fp16 理论性能似乎跟 m4 pro 丐板的 GPU 差不多,但可预计会省电许多


    @beginor 另外“企业级 NPU”其实早有了,比如华为和寒武纪的卡都属于 NPU (而不是 GPGPU )
    kemchenj
        6
    kemchenj  
       2 天前
    @beginor 视频里 NPU 的占用率一直在 35% 或者是 0%,甚至没什么波动,感觉像是只用了特定数据格式的计算单元,例如说 int4 和 int8 ,然后其它数据格式的计算单元就一直闲置,这种情况下可能不太好优化到“火力全开”...
    beginor
        7
    beginor  
    OP
       2 天前 via Android
    作者回复说是因为 npu 的带宽不够,在等数据,所以 npu 使不出全力。 确实一直没有听苹果提过 npu 的带宽是多少,目前应该还不支持量化吧,直接 f16 运算
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1046 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 19:13 · PVG 03:13 · LAX 11:13 · JFK 14:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.