V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  ShadowPower  ›  全部回复第 4 页 / 共 101 页
回复总数  2013
1  2  3  4  5  6  7  8  9  10 ... 101  
26 天前
回复了 ccmingchao 创建的主题 买买买 推荐个安卓手机
红米 K80 ,有全亮度 DC 调光
26 天前
回复了 momowei 创建的主题 Apple 苹果的软件能力是不是没有想的那么厉害
@IDAEngine 有差别,转译 64 位 x86 程序大概损耗到原生(直接源码编译 ARM64 )的 87%左右。之前的 Windows ( 11 ,22H2 )转译损耗我测得 82%,后来听说微软有优化,不知如今是什么水平。
有些程序的转译后性能会比较差,M1 刚出来那会,跑转译的 MATLAB 只有 i5-4210u 那么快……
只是现在的 M4 单核性能的 87%,也比绝大多数人用的 PC (尤其是笔记本)单核性能还强,体验上不会有太大差别。

用它来跑虚拟机,再跑 Windows 或者 Linux ,转译 64 位的体验,感觉也很像原生(必须是 64 位,32 位转译都差,macOS 下用 Crossover 的转译只有原始性能的 7%,还不如 Windows……)
26 天前
回复了 momowei 创建的主题 Apple 苹果的软件能力是不是没有想的那么厉害
@IDAEngine Rosetta2 不是纯软件技术,但是其他的竞品确实是纯软件的,其实强的还是硬件……
> 整个市场加起来可能一年都没一个 iPad 卖的多
真相了……

我估计现在买台式机的人,要么是游戏玩家,要么用来完成工作。
除了数码爱好者买来尝鲜,这个群体不会因为 mac mini 价格低了就去买一台,除非原先就使用 mac 。

以前还有黑苹果用户,硬件价格方面,就和普通的 PC 一样。他们有可能会从黑苹果换到 mac mini ,但按操作系统来统计的话,还是从 macOS 换到了 macOS 。
@x86 那也太奢侈了
27 天前
回复了 xiaoyang0304 创建的主题 Mac mini 丐版的 16G 内存日常开发够不够用?
我现在差不多就是这个情况。
用肯定能用,但是 IDEA 里插件不敢多装,网页标签页开太多的话,切换会有延迟。
内存压力始终是黄色的,哪怕 swap 不高的时候也是,不知道为什么(大概是内存压缩解压太频繁了)。
完全不敢开虚拟机/Docker ,只能用远程服务器上的。不然能让内存压力达到红色。
总体来说,用着不爽……
30 天前
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
@BernieDu
你用 DeepSeek 的话,那就好办了。
你应该这么问 DeepSeek:

---------------

这是 LLAMA 模型的尺寸信息:
'llama3_70b': dict(
base_model='llama3_8b',
vocab_size=128256,
hidden_size=8192,
intermediate_size=28672,
num_hidden_layers=80,
num_attention_heads=64,
num_key_value_heads=8,
max_position_embeddings=8192,
rms_norm_eps=1e-5,
rope_theta=5e5,
),

双显卡跑 LLAMA 70B 模型,batch_size=1 ,模型拆分到两块显卡上,采用流水线并行。激活值精度为 float16 ,计算生成单个 token 时,两块显卡之间前向传播数据大小。

-----------------

它给你算出一个大小,然后,PCIe 4.0 x16 的带宽大约有 32GB/s ,用带宽除以每 token 传输的数据量,就可以算出这个瓶颈会限制 Token/s 到多大了。
30 天前
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
@BernieDu 我现在用来跑 LLM 的显卡,实际 PCIe 带宽是 7.88GB/s (用的平台太老),显卡的显存带宽是 288GB/s ,跑 5bpw 量化 14B 模型实际有 28 token/s
30 天前
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
@BernieDu
PCIe 接口在推理的过程中,传输的数据只有用户输入的文本和模型返回的文本(一次一 Token )
多卡的话,再加上一些层与层之间传输的信息以及一些上下文更新信息,也非常少

吃的带宽都是 GPU-显存之间的带宽,这部分不走 PCIe 。为什么吃:因为生成一个 Token 就得访问一次所有激活参数。但你需要注意的是,这是 GPU 访问自己负责的那部分参数,多 GPU 也不会需要 A GPU 去访问 B GPU 上的显存。

如果用 NVIDIA 以前的 SLI 技术,那倒是会有上面说的情况。但跑模型并不采用这种技术方案,AI 工程师不会那么蠢……
30 天前
回复了 Fdyo 创建的主题 Windows 腾讯应用宝专区正式上架 Microsoft Store
@Fdyo 那太好了
30 天前
回复了 Fdyo 创建的主题 Windows 腾讯应用宝专区正式上架 Microsoft Store
Windows on ARM 能用吗
30 天前
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
@BernieDu 推理对 PCIe 带宽要求很低,训练的要求倒是很高
31 天前
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
@DICK23 数据敏感的场景拿出来租几天 VPS 跑,没有哪家厂商会花成本去监听和解析内存数据
31 天前
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
这个容量能跑的实用模型,消费级 N 卡都能单卡或者双卡跑( 32B / 70B )
实用程度更高的模型,128GB 内存不够跑,想方设法跑起来也会有很严重的性能/质量问题
C++每个第三方库都有自己的字符串实现
你可能会见到:
QString
CString
……
另外,在不在主线程里执行并不能用来判断是不是异步。异步一般跟 IO 有关,主要用于解决线程会被 IO 阻塞的问题。
这里的 IO 可以是文件,可以是网络,也可以是用户的输入。
当然,也可以用多线程实现异步,但是并发不会很高。
Promise 不提供异步机制,而是管理异步流程
1  2  3  4  5  6  7  8  9  10 ... 101  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1339 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 29ms · UTC 17:25 · PVG 01:25 · LAX 10:25 · JFK 13:25
Developed with CodeLauncher
♥ Do have faith in what you're doing.