V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  neopenx  ›  全部回复第 1 页 / 共 2 页
回复总数  24
1  2  
244 天前
回复了 wangbin11 创建的主题 程序员 你们有搞 gpu 算力平台的吗
ToC 做分布式算力,用户机器的稳定性和数据隐私都是问题。自己搞搞玩玩可以,出了事故就完蛋了
@LeeReamond 并没有啥问题啊。你的维度困惑在于把 Q·K 理解成逐元素向量乘法了..上面一堆回答都歪了..
你可能不熟悉矩阵乘法把。Q·K 的注意力矩阵乘法是[2,3]@[3, 2], 也就是做了 2x2 四次向量点积,每个点积都用到了全部三维。这是单头注意力情况。维度更高需要用多头减少每组点积向量的维度,避免参与的维度过多导致注意力不 diverse
338 天前
回复了 Rorysky 创建的主题 Apple Apple 发布新的机器学习框架 MLX
看起来目前只是一个跑一些简单的 metal compute kernels 的练习作品,连 MPS routines 都没 dispatch
Python API 山寨 PyTorch 不说,还相当简陋。
2023-11-01 18:20:19 +08:00
回复了 oppurst 创建的主题 Apple M3 Max 的神经引擎是否已经不够看了?
ANE 需要走 CoreML 跑。18T 应该就是 FP16 的设计峰值。
要是通过 GPU 走 Metal 的话,满血 M2 Max 的 FP32 才 14T 。
苹果短期内应该不打算融合 ANE 和 GPU ,也就是维持 ANE 以低功耗优势,继续挤牙膏。
鬼知道几年后可以追平 3060 的 50T FP16 TensorFlops 设计峰值。
2023-10-19 13:35:16 +08:00
回复了 ZekeChin 创建的主题 macOS 也许是一个 M 芯片上 3A 大作的原因
metal 是兼容 amd gpu ,但是 mps 在 kernel 上是单独实现的。通过 assert 可以发现 M1 走的是 A14 的 kernel 。也就也是说 apple 的工程师大概率就是摆烂写个巨慢的 kernel 给 AMD gpu ,尤其是卷积这种吃架构优化的,只要保证计算结果的正确性就好了。
2023-08-04 11:25:50 +08:00
回复了 746970179 创建的主题 Apple 关于 mac 的内存的好奇
@iamqk apple silicon 的延迟确实比 X86 非统一大,M1 是 110ns ,没比 PS5 的 140ns 好到哪里去。高带宽牺牲延迟是很正常的
2023-08-04 10:34:52 +08:00
回复了 746970179 创建的主题 Apple 关于 mac 的内存的好奇
大于 100GB/s 以上的带宽基本是给 GPU 用的。通过 CPU 大量的 memcpy 基本很难跑到 100 以上。
但是对于 Metal 的 MTLBuffer ,就有足够大的 Blob 把带宽跑上去了。在 CPU 应用上和 X86 比没什么优势。
2023-07-26 17:08:27 +08:00
回复了 lrigi 创建的主题 MacBook Pro 搞 AI 的兄弟们都选的多大的内存? 32 还是 64?
@lrigi M2Max 只是 FP32 的 FLOPS 接近 V100 而已。FP16 的硬件加速在 ANE 上,做不了训练而且峰值还不如 FP32 。
2023-07-01 21:34:46 +08:00
回复了 justincnn 创建的主题 macOS 看个这个视频,感觉苹果是不是真的偷了变形金刚的技术了?
Transformer 的实际需要空间复杂度有很多技术降下去,果子这点小聪明只能说聊胜于无
跑的大部分都是矩阵乘法,M2U 也就和 3060 五五开
2023-05-12 10:55:37 +08:00
回复了 wulili 创建的主题 程序员 AI 计算框架为啥不能统一一下,感觉大家都各玩各的
@MeePawn666 这个不仅仅 shader language 的 DSL 不统一问题,各类加速器的都是 ASIC, 都在自家芯片内塞私有硬件和指令集,所以即使有统一的 DSL ,也要根据不同硬件编译 N 个版本的 DSL ,最后搞得 release 啥都能跑的框架二进制有 10GB 以上,谁都不舒服
2023-05-12 10:47:53 +08:00
回复了 wulili 创建的主题 程序员 AI 计算框架为啥不能统一一下,感觉大家都各玩各的
@tyzandhr 去年 WWDC 苹果还真秀了下用雷电 4 连接 4 台 M1 Ultra 做数据并行训练
不过也只有 Ultra 级别的 FP32 算力才能摸到 3060 的屁股
2023-05-12 10:28:55 +08:00
回复了 wulili 创建的主题 程序员 AI 计算框架为啥不能统一一下,感觉大家都各玩各的
你要类比也应该类比到 shader 吧。
cuda/metal kernel 本质就是 shader ,你看游戏几十年了,不同 GPU 的 shader 很好统一么
基于 LLVM 可以对 GPU shader 做一个抽象,所以 AI compiler 现在也在干同样的事。
2023-04-06 12:59:34 +08:00
回复了 90d0n 创建的主题 程序员 Facebook 开源通用图像分割模型 Segment Anything
本质上是把 FAIR 之前的基于 RCNN 的实例感知工作整合起来了,带头人就是 RCNN 作者 Ross 。你可以把格点作为 prompt ,在仅提取一次的全图特征上无限制地做 query ,就有 Faster/Mask/KeyPoint R-CNN 了
2023-03-31 20:45:49 +08:00
回复了 paulguo 创建的主题 Apple 请教关于新款 MacBook Pro M2 Max 的配置问题,用于大模型训练
@bleaker ANE 只能跑推理。训练要在 GPU 上跑 Metal/MPS 。搞笑的是 GPU 的 FP32/FP16 算力只有 Ultra 上才能超过 ANE 的 FP16 算力。所以用 AppleSilicon 做训练就是来搞笑的
2023-03-30 18:51:44 +08:00
回复了 paulguo 创建的主题 Apple 请教关于新款 MacBook Pro M2 Max 的配置问题,用于大模型训练
M2 Max 的 training 算力等价于 3060 。洗洗睡吧。还不如买块 4090
你还是去看看 Ilya Sutskever 和老黄的谈话,当模型拟合的数据是世界的投影(World Projection)的时候,你就很难用简单 corner case 来测试是否是 AI 了。意识本身没什么意义,你只要维护一个持续观测预测的流水线就可以近似意识了。类 GPT 竞品基本上对答几次就开始暴力输出无意义的预测了,根本没法构建预测永动机
2023-02-27 16:58:32 +08:00
回复了 adonishong 创建的主题 MacBook Pro M2 Max(14) 对比 M1 Max(16) 的 pytorch 推理性能简测
@adonishong RDNA 游戏卡没有 TensorCore 对标单元,处境和果子类似,没啥用。你要用 FP16 只能买 CDNA 的数据中心卡,好像优化的还可以。不过 CDNA 肯定没 GeForce 划算,GeForce 现在砍掉的只有 PCIE/NVLINK P2P ,等于只禁掉你在数据中心的高速互联。
2023-02-27 13:22:13 +08:00
回复了 adonishong 创建的主题 MacBook Pro M2 Max(14) 对比 M1 Max(16) 的 pytorch 推理性能简测
这俩 GPU 的 FP32 Peak 本来就差不多。
MPS 的 Gemm 实现太差,你跑一下就知道大概只能到 65%的 peak 。
Transformer 的 90%计算量都在 Gemm 上。
cublas 的 Gemm 都优化多少年了,上 90%以上的 peak 非常简单。
就这一点上,苹果要用更高的设计峰值才能去打 N 卡。
你要是换 FP16 ,10 系后的卡大部分靠 TensorCore 就能把果子 GPU 计算打到自闭
2023-02-17 11:11:42 +08:00
回复了 athomas 创建的主题 程序员 什么配置的电脑能把 OpenAI 的 Whisper 跑快一点
MPS 默认跳过 intel 集显。所以你 100%是 CPU 在跑。
你换 M2 还不如去租 GPU ,M2 pro 的 MPS 性能也就 1060 水平,跑 Transformer 惨不忍睹
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1195 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 18:16 · PVG 02:16 · LAX 10:16 · JFK 13:16
Developed with CodeLauncher
♥ Do have faith in what you're doing.