M1 Max tensorflow metal 跑分 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Support

› 根据产品序列号查看状态

有用链接

› Apple 产品更新周期

› Other World Computing 性能升级

› Apple 软件 Beta 测试

这是一个创建于 1281 天前的主题，其中的信息可能已经有所发展或是发生改变。

https://github.com/tlkh/tf-metal-experiments/blob/main/README.md#experiments-and-benchmarks

结论是当前版本来看，M1 Max 跟 Nvidia 的 30X0 显卡还有很大距离。不过如果手上刚好有 M1 Max ，倒是可以用来跑一些 prototype.

14 条回复 • 2023-06-06 19:22:39 +08:00

1

makeitwork

2021-10-27 10:05:35 +08:00

阻止炼丹师用 m1max 的最大理由是 pytorch 不支持（短期内也不可能支持） m1max 。一票否决了。tf 在发论文的那群人里已经没人用了。

2

YvesX

2021-10-27 10:29:11 +08:00

功耗摆在那里，跟桌面显卡比未免勉为其难了。

……于是移动端这个 GPU 性能于我而言就没有应用场景了，我不需要在 Final Cut Pro 中同时剪辑 7 轨 8k ProRes 视频。

3

mikeven

2021-10-27 10:33:26 +08:00

1

For 3090, same script is used, but additional optimization that leverage hardware (Tensor Core) and software (XLA compiler) not present/working on M1 is added. This corresponds to the following code segment added:

看了一下应该是软件对 3090 优化很多，带来了速度提升，目前 m1 是没有软件优化的，现阶段应用确实不太行

4

swordfaith

2021-10-27 10:36:07 +08:00

感觉没有云市场，搞框架的厂商也没有好好优化的动力

5

crystone

2021-10-27 11:26:05 +08:00

如果能有软件适配优化的话，差距应该不会特别大的，吧

6

minsheng

2021-10-27 11:31:50 +08:00

1

@mikeven
@swordfaith
@crystone

M1 Max 理论上也就只有 10TFLOPS ，和 3090 差了快四倍。

7

lqf96

2021-10-27 11:34:07 +08:00

@makeitwork 其实 PyTorch 最快支持 M1 的办法应该是开发一个基于 MLCompute 的 JIT 后端，然后利用正在开发的 Lazy Tensor 模拟 eager evaluation...等新电脑到了我准备看看能不能搞个 prototype 玩玩...

8

dejavuwind

2021-10-27 11:42:22 +08:00

@minsheng 那如果真能达到 3090 的 1/4 性能的话也是足以令人欣喜了

9

mikeven

2021-10-27 12:37:04 +08:00

@minsheng #6 目前看纯 GPU 性能是
m1 max 10T
3090 36T
理论上 3090 是 m1 max 3.6 倍吧。
实际上这些测试里面 3090 差不多是 m1 max 的 7 倍左右，软件对 N 卡优化还是好，每 T 的性能 x2

10

minsheng

2021-10-27 12:49:37 +08:00 via iPhone

@lqf96 这样可以支持训练吗？我这两天在看通过 C++扩展的方式支持 Metal ，可以考虑合作一下

11

iowt

2021-10-27 14:24:31 +08:00

其实除了偶尔上机器学习课程的学生，几乎没人用自己电脑训练吧？我身边做 ML 研究的人不管用 PC 还是 Mac ，笔记本都是 SSH 连接器。因为实验室服务器上大把计算资源，根本没有必要在自己电脑上跑。

12

lqf96

2021-10-27 14:43:28 +08:00 via iPhone

@minsheng 可以，现在 Pytorch 官方就在把 TPU （确切说是 XLA ）支持迁移到 Lazy Tensor 架构去…不过我平时还要做 research ，所以也不确定有没有时间搞这个…

13

crystone

2021-10-27 15:55:13 +08:00

@minsheng 四分之一已经很不错了。2022 年发布的工作站级别就要碾压一切了，搞不好要超过 3090 四倍，期待

14

YsHaNg

2023-06-06 19:22:39 +08:00

@crystone m2 ultra fp32 应该还不到 4070 的吧

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 5395 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 27ms · UTC 06:34 · PVG 14:34 · LAX 23:34 · JFK 02:34
Developed with CodeLauncher
♥ Do have faith in what you're doing.