M2 Max(14) 对比 M1 Max(16) 的 pytorch 推理性能简测

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 745 天前的主题，其中的信息可能已经有所发展或是发生改变。

刚到手, 简单测了一下 pytorch 1.x + clip, 跑的是 ViT-L/14@336px 模型, MPS 的 backend, 每张图跑到 32batch, 每张图推理时间 M1 Max 大概是 0.2x 秒, M2 Max 大概是 0.11 秒, 性能翻倍很明显, 参考一下 1080ti 的对应性能是 0.06 秒左右

也就是说 M2 Max 的 MPS 性能有可能达到 1080Ti 的百分之 60 左右了

再强调一下, 用的是 MPS 直接跑的推理, 不是转 onnx 以后用 npu 跑的

Max

mps

推理

性能

13 条回复 • 2023-03-22 19:08:07 +08:00

neopenx

2023-02-27 13:22:13 +08:00

这俩 GPU 的 FP32 Peak 本来就差不多。
MPS 的 Gemm 实现太差，你跑一下就知道大概只能到 65%的 peak 。
Transformer 的 90%计算量都在 Gemm 上。
cublas 的 Gemm 都优化多少年了，上 90%以上的 peak 非常简单。
就这一点上，苹果要用更高的设计峰值才能去打 N 卡。
你要是换 FP16 ，10 系后的卡大部分靠 TensorCore 就能把果子 GPU 计算打到自闭

caEsIum

2023-02-27 13:27:15 +08:00

14 寸的笔记本性能释放受限，建议能 16 还是 16 ，差不了多少钱。
没有移动办公需求的话，非常建议直接 Studio （ M2 系列），如果今年还有的话。

gefangshuai

2023-02-27 13:51:34 +08:00

@caEsIum 差 3k 叫差不了多少钱？

caEsIum

2023-02-27 13:56:06 +08:00

@gefangshuai M2 Max 对比只差 1500 ，谁还买 M1 Max 啊。

adonishong

2023-02-27 16:04:32 +08:00

@neopenx 这就是准备在没有网络的时候跑跑原型做一下基础的代码测试的 ... 正经炼丹那肯定是发到远程主机上拿英伟达的卡跑啊

adonishong

2023-02-27 16:07:13 +08:00

@neopenx 请教一下目前 amd 那边 ROCm 的实现情况怎么样了? 效率方面和英伟达那边 cublas, cudnn 的差距能有多大有了解么?

neopenx

2023-02-27 16:58:32 +08:00

@adonishong RDNA 游戏卡没有 TensorCore 对标单元，处境和果子类似，没啥用。你要用 FP16 只能买 CDNA 的数据中心卡，好像优化的还可以。不过 CDNA 肯定没 GeForce 划算，GeForce 现在砍掉的只有 PCIE/NVLINK P2P ，等于只禁掉你在数据中心的高速互联。