V2EX › ShadowPower 的所有回复 › 第 4 页 / 共 101 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 101

❮

❯

26 天前

回复了 ccmingchao 创建的主题 › 买买买 › 推荐个安卓手机

红米 K80 ，有全亮度 DC 调光

26 天前

回复了 momowei 创建的主题 › Apple › 苹果的软件能力是不是没有想的那么厉害

@IDAEngine 有差别，转译 64 位 x86 程序大概损耗到原生（直接源码编译 ARM64 ）的 87%左右。之前的 Windows （ 11 ，22H2 ）转译损耗我测得 82%，后来听说微软有优化，不知如今是什么水平。
有些程序的转译后性能会比较差，M1 刚出来那会，跑转译的 MATLAB 只有 i5-4210u 那么快……
只是现在的 M4 单核性能的 87%，也比绝大多数人用的 PC （尤其是笔记本）单核性能还强，体验上不会有太大差别。

用它来跑虚拟机，再跑 Windows 或者 Linux ，转译 64 位的体验，感觉也很像原生（必须是 64 位，32 位转译都差，macOS 下用 Crossover 的转译只有原始性能的 7%，还不如 Windows……）

26 天前

回复了 momowei 创建的主题 › Apple › 苹果的软件能力是不是没有想的那么厉害

@IDAEngine Rosetta2 不是纯软件技术，但是其他的竞品确实是纯软件的，其实强的还是硬件……

27 天前

回复了 ShadowPower 创建的主题 › Apple › 我以为低价的 mac mini m4 会提升国内 macOS 市场份额，但似乎并没有

> 整个市场加起来可能一年都没一个 iPad 卖的多
真相了……

我估计现在买台式机的人，要么是游戏玩家，要么用来完成工作。
除了数码爱好者买来尝鲜，这个群体不会因为 mac mini 价格低了就去买一台，除非原先就使用 mac 。

以前还有黑苹果用户，硬件价格方面，就和普通的 PC 一样。他们有可能会从黑苹果换到 mac mini ，但按操作系统来统计的话，还是从 macOS 换到了 macOS 。

27 天前

回复了 ShadowPower 创建的主题 › Apple › 我以为低价的 mac mini m4 会提升国内 macOS 市场份额，但似乎并没有

@x86 那也太奢侈了

27 天前

回复了 xiaoyang0304 创建的主题 › Mac mini › 丐版的 16G 内存日常开发够不够用？

我现在差不多就是这个情况。
用肯定能用，但是 IDEA 里插件不敢多装，网页标签页开太多的话，切换会有延迟。
内存压力始终是黄色的，哪怕 swap 不高的时候也是，不知道为什么（大概是内存压缩解压太频繁了）。
完全不敢开虚拟机/Docker ，只能用远程服务器上的。不然能让内存压力达到红色。
总体来说，用着不爽……

30 天前

回复了 886106 创建的主题 › Apple › Studio M4max 128G 是否合适跑大模型

@BernieDu
你用 DeepSeek 的话，那就好办了。
你应该这么问 DeepSeek：

---------------

这是 LLAMA 模型的尺寸信息：
'llama3_70b': dict(
base_model='llama3_8b',
vocab_size=128256,
hidden_size=8192,
intermediate_size=28672,
num_hidden_layers=80,
num_attention_heads=64,
num_key_value_heads=8,
max_position_embeddings=8192,
rms_norm_eps=1e-5,
rope_theta=5e5,
),

双显卡跑 LLAMA 70B 模型，batch_size=1 ，模型拆分到两块显卡上，采用流水线并行。激活值精度为 float16 ，计算生成单个 token 时，两块显卡之间前向传播数据大小。

-----------------

它给你算出一个大小，然后，PCIe 4.0 x16 的带宽大约有 32GB/s ，用带宽除以每 token 传输的数据量，就可以算出这个瓶颈会限制 Token/s 到多大了。

30 天前

回复了 886106 创建的主题 › Apple › Studio M4max 128G 是否合适跑大模型

@BernieDu 我现在用来跑 LLM 的显卡，实际 PCIe 带宽是 7.88GB/s （用的平台太老），显卡的显存带宽是 288GB/s ，跑 5bpw 量化 14B 模型实际有 28 token/s

30 天前

回复了 886106 创建的主题 › Apple › Studio M4max 128G 是否合适跑大模型

@BernieDu
PCIe 接口在推理的过程中，传输的数据只有用户输入的文本和模型返回的文本（一次一 Token ）
多卡的话，再加上一些层与层之间传输的信息以及一些上下文更新信息，也非常少

吃的带宽都是 GPU-显存之间的带宽，这部分不走 PCIe 。为什么吃：因为生成一个 Token 就得访问一次所有激活参数。但你需要注意的是，这是 GPU 访问自己负责的那部分参数，多 GPU 也不会需要 A GPU 去访问 B GPU 上的显存。

如果用 NVIDIA 以前的 SLI 技术，那倒是会有上面说的情况。但跑模型并不采用这种技术方案，AI 工程师不会那么蠢……

30 天前

回复了 Fdyo 创建的主题 › Windows › 腾讯应用宝专区正式上架 Microsoft Store

@Fdyo 那太好了

30 天前

回复了 Fdyo 创建的主题 › Windows › 腾讯应用宝专区正式上架 Microsoft Store

Windows on ARM 能用吗

30 天前

回复了 886106 创建的主题 › Apple › Studio M4max 128G 是否合适跑大模型

@BernieDu 推理对 PCIe 带宽要求很低，训练的要求倒是很高

31 天前

回复了 886106 创建的主题 › Apple › Studio M4max 128G 是否合适跑大模型

@DICK23 数据敏感的场景拿出来租几天 VPS 跑，没有哪家厂商会花成本去监听和解析内存数据