主要是本地推理,最大跑13B模型,目前考虑的cpu 14900kf、内存128g、显卡4090
1
52boobs 296 天前 via Android 1
如果你不太确定想怎么玩大模型,其实可以花点小钱租台顶配机器跑跑感觉有点意思的项目,玩一段时间后你自然就知道怎么选择了。
|
2
mythabc 296 天前 1
本地只能跑跑推理和 7B lora 训练。更大规模的训练可以选择租 A100
我的配置是: GPU:4090D 虽然是 dog 版,但是目前 4090D 的性价比是比 4090 高的。 板 U 内存:B550I + 5800X + 2 *32G 以前攒的,跑大模型对 CPU 要求不高,内存要注意有一些步骤,比如 lora 合并、量化会使用内存,如果内存太小可能就跑不起来,64G 是需要的。 电源散热机箱:根据自己需求配把。 主要成本还是显卡。 |
3
forgetlight 296 天前 1
主要是在于你想要怎么大模型,我预估是做 inference ,不太可能 fine-tuning 。这样的话主要是根据你需要跑的模型大小是否能放进显存。最好是提前调研下需要在什么精度下跑什么模型。
|
4
mythabc 296 天前
顺带一提:我比较极限,把以上配置塞进了 SSUPD 里,一个 15L 体积的机箱。
|
6
rus4db 296 天前 1
超微 7048GR + 4×2080ti(22GB) FYI
|
7
dianso 296 天前 1
没必要自己买。
vultr 租一个就行。 按需使用,小时付费。 |
8
joshuasui 296 天前 1
我去年部署的 13900KF + 128G + 4090 ,大概一共两万内搞定全白配色
之前试过租云服务器,最大的硬伤就是每次开机用起来太麻烦了,可能是因为用的小平台,大平台如 aliyun 之类的又太贵。 |
11
ZXiangQAQ 296 天前
4090 显存不够吧,13B 的大模型如果 INT4 还好,如果 INT8 基本就需要 13-16G 显存了,fp 精度直接 30G+了扛不住
|
12
Ackvincent 296 天前
塔式 T640 加 GPU 显卡 套件, 价格便宜量又足.
|
13
mushuanl 296 天前
大模型主要瓶颈在内存访问速度,直接上 mac 然后 llama.cpp, 大于 13B 的也能玩
因为 13B 简单玩几次就腻烦了,参数越高性能越好 |
16
churchill 296 天前
|
19
gam2046 295 天前
借楼问问,现在有没有什么大模型,可以用于看外语片的时候,能够根据音频出中文字幕的。
|
20
dayeye2006199 295 天前
你这价钱可以 colab pro 32 年的服务
|
24
shoumu OP @dayeye2006199 pro 是 100 个计算单元,用不了多久吧
|
27
suuuch 295 天前 1
colab pro 可以先充值一个月试试看,只做推理的话,还是够用的,还可以免得冲动消费。。
|
28
shuimugan 295 天前 3
拿 2080ti 22g 跑 13B 8bit 量化,都能跑 30token/s 甚至更快。
准备好钱买第二块显卡或者换 2 张 7900XTX 跑 34B 的吧。 很明确告诉你 13B 级别,如果不是特别训练单一领域的,那么就是一个弱智。 比如最近最近新出的 StarCoder2 ,号称涵盖 619 种编程语言,我下载下来问几个语言、常用编程库、数据库之类的版本信息,15B 的训练数据落后 6 年,7B 的落后 9 年。 显卡显存不够内存来凑的内存回退机制不用看了,屎中屎,无论是玩画图还是玩 LLM 推理都是教你关掉的。 引用别人的回复 “生成式大语言模型的推理过程就是先把模型本身加载到运存,然后每生成一个字都需要把整个模型遍历访问一遍,所以决定速度的就是运存带宽(预训练或者微调时需要计算能力,但推理时几乎不需要,就是沿着预训练好的权重选择下一步路径,所以哪怕 1060 配上 48G 显存也是推理神器)。比如 7B 模型的 8 位量化版本,每个权重占一个字节所以就是 7G 大小( 7B 参数是指有 70 亿个权重,8 位量化是指每个权重用 2 的 8 次方表示就是有 256 种下一步的可能,也就是占用 1 比特的空间,同理目前性价比最高的 Q4 量化就是 3.5G ),如果是加载到 4090 的显存,因为它的 GDDR 显存带宽是 1000GB/s ,那么生成速度就是 1000 除以 7 大概每秒 140 个字(词元);如果是纯 CPU 推理,加载到 DDR4 的内存,带宽大概 30GB/s ,那么推理速度就是 30/7 大概 4 个字每秒” 内存堆高优势不大,ddr5 双通道带宽也就 70 ~ 100GB/s ,是 4090 的 1/10 。所以在 reddit 上可以看到 96 核跑 13B 的推理速度几 token/s 的景象。 现在优化手段就是把模型合理拆分,不活跃的丢 CPU ,活跃的丢 GPU ,既要避免 cpu 在围观 gpu 干活,又要避免 cpu 因为内存瓶颈干活慢,比如 https://github.com/SJTU-IPADS/PowerInfer 我每个月下载几百 G 的模型来测,用 M2 Ultra 192GB 玩了 3 个月了,最近就是因为它跑大模型的时候 cpu 不干活,我看不下去它在摸鱼,本来丢货架上不接显示器的,现在都接上显示器拿来写代码了。 附:本地模型写代码能力排名 https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard 。 |