想入一张显卡研究下 AI 。对比下来觉得要么 3090TI ,要么 4070TIS ,倾向于 3090TI ,因为 24g 显存宽裕一点,照现在模型的发展 16g 担心以后会不够用。16g 跑现阶段的模型大部分时候压力都不大,但比如开个 SDXL+四五个 lora ,估计 16g 也带不动了。
现在的问题是对显卡一无所知😂看到说 30 系默认全矿的,又有说 3090TI 不是矿的。想问下老哥们,3090ti 现在能入吗,能的话什么渠道比较靠谱,合理的价格大概多少?
另外我不玩游戏,实话说如果没有太大的性能差异我是能接受矿卡的,就怕以为是轻度锻炼没想到是深度锻炼,那就不能接受了。。
1
digd 218 天前 1
如果只是玩 llm ,建议 mac pro
|
2
hunk 218 天前
要不要考虑租用主机,试用先,4090 我记得有的才 3-5 块/小时。
硬件投入感觉变数大。 |
3
x86 218 天前
试试 2080ti 改 22g 的方案?
|
4
go522000 218 天前
现在能用,但明年就不一定了,我的显存 12G 只能下载别人量化好的来用。
我看到群友们是搞魔改版本 22G * 4 , 才能跑 72b 的模型,而 110b 以上模型得自己量化为 4bit 才能跑。 |
5
jamfer 218 天前
最近刚好看到一个视频,说苹果的统一内存(显存),对训练大模型很有用,本人不太懂,仅给 LZ 一个参考: https://www.bilibili.com/video/BV1MH4y1g77V
|
7
sleepybear1113 218 天前 2
虽然我不懂跑 ai 模型的需求,但是为啥这里也有无脑吹 mac 的果粉啊
|
10
rabbbit 218 天前
先按需租个试试,便宜的几块钱一小时,L4 T4 v100 A100 型号一大堆。
|
11
plasticman64 218 天前 10
@sleepybear1113 所以你不懂为什么要出来叫,M 芯片跑 LLM 性能确实很好啊
|
12
libook 218 天前 via Android
显存大小是硬性需求,算力只是速度快慢的问题。
看你要玩的模型要多大显存,另外训练和推理需要的显存大小可能是不一样的,以及你是否有需要同时加载多个模型。 |
13
pinecone1 218 天前
M 芯片因为有统一内存结构,笔记本都上 36G-48G 的统一内存了,是能跑起更大参数量的模型的。但是推理速度会比 4090 慢好多
|
15
WilliamZuo 218 天前
不了解硬件,但如果 AI 无法在短时间内把推理硬件门槛降低到 3090Ti 或者 4060 ,那这个行业真的值得被长期看好吗?
|
16
imoru 218 天前 2
偶尔使用的话推荐租用 GPU,我用的是这个平台
https://www.autodl.com/ 只花了 150 都不到就退烧了,因为其实真的没有那么多喜欢的角色 lora 需要训练,而且画了快一万张图感觉有点腻了😂 |
17
jadehare 218 天前 3
@plasticman64 性能确实好性价比确实好么?买下来加内存买下来比 4090 还贵,跑下来还不如 4090 。有 mac 可以不用买显卡,但是已经有台式机更新肯定是更新显卡,推荐 mac 不是搞耍?
|
18
sweat89 218 天前
@sleepybear1113 所以你不懂还要在这尬喷?人麻了都
|
19
neteroster 218 天前 via Android 4
真要考虑 Apple Silicon 跑 LLM 的话先看看这个:
https://github.com/ggerganov/llama.cpp/discussions/4167 不是所有 M 芯片都是那么快的。等级森严在苹果这里也是不会变的。 除非你非跑超大模型不可,否则就性能而言 M 芯片的性价比是不如 NVIDIA 的。总之就是先想清楚需求。 然后就是如果涉猎比较广泛,不止玩 LLM ,当然还是 NVIDIA ,毕竟生态再这里。 |
20
devlnt 218 天前 1
@pinecone1 #14 m3max 64G 跑 llama3:70b 能达到 9tokens/s ,而 4090+64G 内存只能 2tokens/s 。8b 的话 4090 能 100tokens/s, m3max 是 50 多 tokens/s 。
|
21
liuyangmengqi 218 天前
@sleepybear1113 虽然你什么都不懂 ,但是也不妨碍你看到苹果就咬啊
|
22
neteroster 218 天前
@neteroster 再补充几句,70B 还没到 Mac 的适应区间,2 * 3090 就能拉爆 M3 Max 了,还是在便宜的多的情况下。拉高 batch size 差距应该会更加显著。
再大的模型?那就要想清楚你是不是真的需要那么大的模型了,现在大部分模型都集中在 <100B 区间,就算 >100B 的模型 Mac 也跑不快的。唯一有优势的可能是 MoE ,不过现阶段并不多,可能战未来吧。 |
23
Caitlyn 218 天前
我的 4070tis 跑 ai 绘图、ai 唱歌,速度非常快,显存占用基本在 14g 左右,我觉得 70tis 性价比很高,4080s 贵了 1500 提升不是很大不划算了
|
24
JayZXu 218 天前
如果只是玩一玩,组个 GPU 的钱也就几块钱一个小时,就当上网吧了,而且环境配置时还不算钱,挺合算。自己试试真实需求再下手不迟
如果是真的深入要微调模型啊之类的需求,买一张 3090ti 也不顶用。 哪怕是 24G 跑大模型也顶多只能跑个优化好的 13B ,14B 。70B 就不要想了。 画图参数拉高了,显存一样不够用。 |
25
thinkershare 218 天前
租卡是最合适的,弄个 A100*2 或者 3090*4 的集群,基本啥都能跑。。另外你是要搞推理还是训练?
等到你真的需要自己训练大模型时,你一样需要专业的集群,而不能靠你手头那点资源。 |
26
clear 218 天前 6
上面吹 Mac 跑大模型的自己真的用过吗,那么多坑都淌完了?
还是看了个视频张口就来了。 — 来自顶配 Studio 用户的评论。 另附:租用目前是最合适的,退烧快,性价比高,以 AI 名义打游戏另说。 |
27
tr1v1z 218 天前 via Android 4
说 mac 的基本就是限定了顶配,然后只适用 llama.cpp ,然后呢,买回来纯推理 llama ?楼主都说了 sdxl ,怎么可能推荐 mac ,不知道咋想的…
至于为啥 4090 看上去拉,因为显存不够只能走 pcie 走 内存走 cpu 。换成 2x3090 就会立竿见影。话又说回来,sd 又不特别吃显存,4090 绝对是好选择。 不要只看评测视频吧。。 |
28
kenvix 218 天前
有很多人说 mac 跑 LLM 很好,我比较好奇,这个跑是推理还是微调? mac 能 SFT 微调 LLM 吗?
|
29
LaurelHarmon 218 天前
3090 很好的,跑跑模型没啥问题,训练推理都在行,老当益壮
|
30
herozzm 218 天前
小模型可以,稍大就抓瞎
|
31
ansor 218 天前
mac 跑 LLM,跟 wsl 跑 LLM 有什么区别,价格还更便宜。
|
32
sola97 217 天前 via Android
推理速度太慢没有实用价值,什么 14b 都不如免费的 kimi
|
33
lithiumii 217 天前 via Android
@sleepybear1113 因为老黄的显存跟果子的统一内存都是金子价。果子 96G 内存的机器是一台可以拎走的笔记本,同等价格 96G 显存的机器是一台体积功耗噪音都惊人的服务器。个人玩特别大的模型,苹果忽然就有性价比了。
|
34
sighforever 217 天前
@ansor mac 现在是统一内存,内存也是显存,mac 有个 192G 版本的,相当于有 150+ 的显存了,等于 6 块 4090 了
|
35
SkywalkerJi 217 天前 via Android 3
果粉只考虑显存大小,不考虑算力的吗? gt610 大狂牛?
|
36
michaelzxp 217 天前
就等苹果 wwdc 看会不会发布自己的 ai ,年底上 m4 大内存版本
|
37
1138743695 217 天前
感觉想学习不管是从成本还是便利性上都推荐用租的,能避免很多问题(我是本科 ai 专业,长时间的课题自然用实验室的,平时自己想试点什么就用租的,我用的 autodl )
|
40
secondwtq 217 天前
SD 和 LLM 这两个需求其实是不一样的
LLM 看个人需求,跑得快当然好,有的场景慢一点也无所谓 但是 SD 实际使用中需要迭代调参才能试出相对满意的结果,这种情况下能快速推理生成预览是非常有用的 就像过去 3D 建模调材质,CPU 渲染很慢影响效率,但是后来 CPU 核数上来了,又可以用 GPU 硬件加速光追,效率指数级上升 |
42
muxiaofei 217 天前
请教一下大佬们,如果只是做向量模型来跑模型,以及微调模型,这种需求是买 3090ti 还是 4070 呀
|
43
muxiaofei 217 天前
或者说做一个定制化的企业知识库用的模型进行微调需要什么显卡( CHATGLM2 和 M3E ) 或者笔记本也行。
|
46
NewHere 217 天前
@sleepybear1113 统一内存比较吃香,老黄要 80g 的显存得 A100 和 H100 了,mac 可以几万拿下一整套,老黄价格比这贵还只是一张显卡
|
47
PeneceaQwQ 217 天前
首先,先建议租一下显卡试一试,说不定吃不满。可以尝试的平台:autodl ,vast.ai
关于矿卡:3090ti 发布的比较晚,而且对矿老板性价比不高,就算挖的话也挖不了多久 关于矿卡的危害:问题就是不稳定。连续高温满载工作。首先显存可能先炸(如果是 3090 到手建议换显存),硅脂因为高温会渗出硅油,除此之外还可能会有各种各样的小问题。可以捡,但是做好心理预期,建议观摩一下靓女维修佬的视频,做好功课再说。捡到个人买家也不是不可能() |
48
gransh 217 天前
@plasticman64 问题 op 明确了需求是 SDXL+四五个 lora ,你哪里看到有 LLM 了?
|
49
gransh 217 天前
这楼我没看完都不知道你们能吵这么多关于 mac 的,SDXL+lora 几个大字看不见疯狂辩论 LLM ,绝绝子
|
50
hunk 217 天前
|
52
muxiaofei 217 天前
@r6cb 感谢大佬的回复,我现在如果是想用 llama3 进行中文微调的话(其实我也只是一个小白),大概需要什么样子的显卡呢? 目前有一台 3060 12GB
|
53
muxiaofei 217 天前
@1138743695 您好,想了解下,如果租用算力来微调自己的模型,这样是可行的吗?
|
54
ljyst 217 天前
ai 说到底还是 cpu 语法套模版。玩的是硬件.没意思
|
55
neteroster 217 天前
@muxiaofei
中文微调推荐 Qwen 系列,llama3 预训练估计没多少中文语料。 微调分不同类型,全量,LoRA ,QLoRA 等,最近也有一些新兴技术。例如,llama3 8b 用 LoRA 基本 24G 能满足,但是全量微调这个大小则是天方夜谭。部分任务下 LoRA 等技术和全量微调效果接近甚至更好,但是也有很多任务是不及全量微调的,需要实际测试。 租算力完全可行。 另外,知识库不推荐微调,先试试 RAG 。 |
56
locoz 217 天前 via Android
玩图片生成买个二手 3090 玩没啥问题,无论是要长期放着跑还是玩腻了打游戏都可以,不过 3090 会很热、风扇很吵,这个可能要考虑一下。
如果明确只是短期玩玩,使用频率和时长没那么高,那租硬件是最具有性价比的选择,性能又好,实际产生的成本又低,又省事。 吹苹果的看看就得了,拿苹果统一内存跑起来了大模型又怎么样?就那点速度完全不具备可用性。说白了就是个放企业级场景嫌慢、个人场景嫌贵的鸡肋。而且买了高配之后不想玩了干其他事又是纯浪费,想卖二手这过高的配置又不好出手,麻烦得很。 |
57
cnevil 217 天前
@WilliamZuo 因为你要是不执著于本地部署的话,你没显卡都能用
|
58
HojiOShi 217 天前
现在 5090 都要出了,就算有 3090TI ,别人凭什么把体质好的锻炼少的卡卖给你啊。。。
|
59
leconio 217 天前 via iPhone
MacOS 可以跑 llm 呀,有这个示例工程工程 https://github.com/ml-explore/mlx-examples ,有人在 macos 跑起了 32B 的大模型,lora 微调。。。而用 cuda 要 64 显存
|
60
leconio 217 天前 via iPhone
但 huggingface 上的大部分模型,开发者只给出 cuda 的例子,除非你特别知道自己在干什么,否则为了生态我还是劝你入英伟达 40 系列显卡
|
62
Tuatara OP @hunk 我之前就是租用云 gpu ,这个主要弊端是只能 linux ,很多大神的整合包都是 windows ,另外每次用完都要重新搭建环境,时间长了也挺麻烦的。。
|
67
Tuatara OP @WilliamZuo 硬件要求确实也在降低中,外国很多老哥在把模型优化成 12g 显存能跑。不过也都是开源小模型,毕竟有一定局限性
|
68
Tuatara OP @imoru 这个我试过,国内的 autodl ,国外的 runpod ,说实话都还不错。主要问题是只能 linux 没有图形界面,但很多整合包还是要图形界面操作,时间长了觉得租的还是不方便
|
69
Tuatara OP @neteroster 我估计最多也就跑个 70b 了,再大确实也没啥必要,而且也可以租 gpu 来玩
|
72
Tuatara OP @thinkershare 我自己玩主要是推理,训练确实可以租 gpu 。有点之前忘说了,云 gpu 主要是只能 linux 有些大神的整合包用不了,而且每次都要重新搭建环境,时间长了感觉有点蛋疼
|
74
Tuatara OP @1138743695 我之前也都是租,但我看很多大神出的整合包都是 windows 的,租的 gpu 都是 linux 用不了。加上每次要重新配环境有点蛋疼,这才考虑组机器。前面这两问题老哥怎么解决的?
@Francost 我之前也是用 runpod (现在上面都还有钱笑死),租卡主要是👆这俩问题,老哥有啥好办法吗 @secondwtq 蛮有道理的,能快速生成预览还蛮重要的 @leconio 老哥点解,为啥为了生态要选 40 系? 30 和 40 的生态不一样吗,我理解都是 cuda |
75
Tuatara OP 大家讨论好多,很感谢哈哈哈
原题忘了说了,我之前也一直是租 GPU 的,主要是 runpod 和 autodl 两个平台上。性价比上绝对是租划算,主要问题是 1 )想玩一些大神的整合包,但只能 windows/可视化,租的 gpu 都是只有 linux 这种整合包就跑不了;再来租的每次都要重新搭环境,时间长了有点蛋疼,这才考虑组机器。 不过说实话我动手也没有那么多,看了一圈下来大家分歧还是比较大😂 准备再租 gpu 一段时间,真要入的话目前倾向 4070tis 了。 至于 mac ,我工作电脑是个 M2 pro 芯片,跑 llm 倒是挺好。sd 的话还是慢的过分了,我感觉体验不是很能接受。但更新的 M3 + 统一内存没试过,我理解速度上还是不如显卡?因为它只是显存大,计算还是得 cpu |
76
BernieDu 217 天前
@tr1v1z m3max 3 秒一张图和 3090 2 秒一张图差多少? 而且楼主是为了研究 ai ,3090 能跑 llam 70b ? 跑内存里是吧。这就不是浪费时间了?
|
77
Oct31Dec25 217 天前
|
78
wsbqdyhm 217 天前
目前使用 mac m1max 只会用 sd ,出图有点慢,搭车问下,mac 有没有一些免费项目可以训练自己的语音,然后用文本可以输出自己的专属语音。
|
79
neteroster 216 天前
|
80
1138743695 216 天前
@Tuatara #74 这个我跟你的想法恰好相反,大多数开源的代码不应该都是基于 linux 的吗,所以才会主力用 mac 和云服务器做实验(不管是 github repo 还是 HuggingFace 默认都是 linux 吧),不过我猜你说的可能是 ai 绘画的整合包,这个我确实不是很了解😂
|
81
Tuatara OP @1138743695 对,我看的很多是 b 站 up 的 SD 教程,大多是要图形化工具,而且是打包好的只有 windows
|
82
Tuatara OP @1138743695 其实还有一些工具也都是只有 windows ,我之前做 ai 孙燕姿,要做人声分离,用到的软件就只有 win
|
83
first2wood 216 天前
刚好看到这个,我看好多人用的 P100 和 P40 。https://www.reddit.com/r/LocalLLaMA/comments/1cu7p6t/llama_3_70b_q4_running_24_toks/
|
84
ShadowPower 216 天前 via Android
我想起这个模型:
https://civitai.com/models/332076/kohaku-xl-delta 用两块 3090 显卡,在 360 万张图片(只比初代 NovelAI 少一点)上微调 SDXL 不到一个月得到的模型…… |
85
rainbowmolly 216 天前
@sleepybear1113 “因为我不懂,所以别人都是无脑”
|
86
chesha1 216 天前
|
87
jimrok 216 天前
学习和调试机应该是要配置一台的,N 卡就行。租卡适合模型都调试完毕了,要进行大规模训练。
|
88
Tuatara OP @first2wood 这些卡太高级了,我都不会组😂另外好像还有些兼容性问题,感觉还是更适合真正研究/训练 AI 的人用,我这种业余玩家主流 N 卡最主要的好处是教程多社区大,有问题好解决
|
89
Tuatara OP |
90
lancelvlu 213 天前
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference 苹果芯片 LLM 推理可以参考这个
|