ANE 可以跑大模型了！

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Support

› 根据产品序列号查看状态

有用链接

› Apple 产品更新周期

› Apple 软件 Beta 测试

发现了这个 ANEMLL 项目，可以用 ANE 来跑大模型，项目刚刚上线 github 没多久，目前只支持 llama 系列模型，也包括 deepseek 蒸馏过的 llama 3 。

作者也上传了一些模型到 huggingface 。

经过简单测试和对比，生成速度大概是 mlx/llama.cpp 的 1/3 ，但是只使用 30% 左右的 npu 性能，功耗只有 2 ～ 3 瓦，是显卡功耗的 1/10 。

如果以后能够让 npu 火力全开，说不定速度能追上 mlx 。

ANE 终于可以告别电阻器的外号了！

7 条回复 • 2025-02-18 22:25:15 +08:00

EchoWhale

4 天前 via iPhone

求科普，是不是只能跑蒸馏过？像 70b 之类的是不行吗

kemchenj

4 天前

“只使用 30% 的 npu 性能”这里面的 30% 是怎么得出来的？

beginor

4 天前 via Android

beginor

4 天前 via Android

@EchoWhale 目前的 npu 一般都是移动设备或者 PC ，所以都是跑小模型，功耗很低。

不过也不排除以后会有企业级 npu 出现

WuSiYu

3 天前

有点意思，ANE 的 fp16 理论性能似乎跟 m4 pro 丐板的 GPU 差不多，但可预计会省电许多

@beginor 另外“企业级 NPU”其实早有了，比如华为和寒武纪的卡都属于 NPU （而不是 GPGPU ）

kemchenj

2 天前

@beginor 视频里 NPU 的占用率一直在 35% 或者是 0%，甚至没什么波动，感觉像是只用了特定数据格式的计算单元，例如说 int4 和 int8 ，然后其它数据格式的计算单元就一直闲置，这种情况下可能不太好优化到“火力全开”...

beginor

2 天前 via Android

作者回复说是因为 npu 的带宽不够，在等数据，所以 npu 使不出全力。确实一直没有听苹果提过 npu 的带宽是多少，目前应该还不支持量化吧，直接 f16 运算