M2 128GB 的 Mac Studio 与 NVDIA A100 相比如何？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 405 天前的主题，其中的信息可能已经有所发展或是发生改变。

在人工智能使用方面，尤其是 LLMs.

Mac Studio 128GB 仍然比 A100 80GB 便宜得多。

a100

studio

Mac

14 条回复 • 2024-02-26 12:04:55 +08:00

coinbase

2024-02-24 20:28:59 +08:00

等 M3 的 Mac Studio 出来，感觉比 A100 性价比舒服很多

june4

2024-02-24 21:01:25 +08:00

比的是内存大小？那确实 m2 便宜，不过小米更便宜

66450146

2024-02-24 21:19:55 +08:00 via iPhone

@june4 比的是显存大小

kaichen

2024-02-24 21:31:07 +08:00

那你可以对比 96G 的价格，从推理来说，能效方面 apple silicon 比较高，并且买回来就能用，买个 A100 还要组个主机

但是推理速度会被吊打，基本上差一个量级

- https://towardsdatascience.com/how-fast-is-mlx-a-comprehensive-benchmark-on-8-apple-silicon-chips-and-4-cuda-gpus-378a0ae356a0
- https://owehrens.com/whisper-nvidia-rtx-4090-vs-m1pro-with-mlx/

kaichen

2024-02-24 21:34:17 +08:00

在 reddit 的 local llama 上，比较推崇的是买两块 3090 组 nvlink ，这样有 48G ，可以刚刚好跑个 70b 的 q5 量化版

stimw

2024-02-24 22:37:12 +08:00

这只是对于一部分 LLM ，可能 apple silicon 显得非常有性价比。

但是对于 SD ，SVD 等任务来说就不是这么一回事了。可用性并不高。

luguhu

2024-02-24 22:41:51 +08:00 via iPhone

推理速度太不行，只是能用

litguy

2024-02-25 10:45:04 +08:00

感觉性能是奥拓 vs 奥迪

coinbase

2024-02-25 10:58:22 +08:00

@kaichen @stimw @luguhu @litguy

在运行 70b 的 llama2 的时候，M3 Max 128G 要比 4090 更快:

具体请看这个测试视频：

在运行 7b 和 13b 的模型的时候，M3 Max 稍微慢点，但是也不是说被 4090 吊打

coinbase

2024-02-25 10:59:01 +08:00

@coinbase #9 说错，应该是打不过 A100 ，不好意思

stimw

2024-02-25 15:49:28 +08:00

@coinbase #9 你别拉到最后看结果啊。4090 慢的原因是超显存了，结果就是需要过 pcie 过 cpu 过内存。
事实上 70b 的 llama 完全可以用两块 3090 组 nvlink ，你看还慢不慢？

买 apple silicon 的结果就是，除了围绕 llama.cpp 做文章，干其他事的可用性对比 cuda 约等于 0 。

Alias4ck

2024-02-26 11:17:13 +08:00

@stimw 也不完全是 llama.cpp, apple 去年也有出自己的 ml 框架(mlx( https://github.com/ml-explore/mlx) ) 用来转 coreml

有很多应用的例子： https://github.com/ml-explore/mlx-examples
比如你可以在 apple silicon 上跑大语言模型的微调等

xz410236056

2024-02-26 11:36:25 +08:00

@Alias4ck #12 MLX 这东西跟用 pytorch 调用 MPS 训练，然后将成果使用 coreml tool 转成 coreml 模型什么区别呢。

stimw

2024-02-26 12:04:55 +08:00 via Android

@Alias4ck https://github.com/TristanBilot/mlx-benchmark

看见过，但是这个成绩我觉得可用性很差