V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要把任何和邀请码有关的内容发到 NAS 节点。

邀请码相关的内容请使用 /go/in 节点。

如果没有发送到 /go/in,那么会被移动到 /go/pointless 同时账号会被降权。如果持续触发这样的移动,会导致账号被禁用。
wxd21020
V2EX  ›  NAS

配置小主机跑大模型

  •  
  •   wxd21020 · 261 天前 · 9554 次点击
    这是一个创建于 261 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在下目前有个蜗牛黑群辉,j1900 ,搞一些小东西还是够用的; 新年伊始,想着整个小主机玩玩,配置稍微高一点,主要是想 ALL IN ONE ,大佬们有啥配置建议没;预算 1000 到 2000 左右。 还有一点是想在小主机上跑个低配的那种大模型,只要输入一段文字能检索出关键信息、关键字等等这些功能就行,不需要复杂功能。 求兄弟们支招哇。

    83 条回复    2024-05-30 01:17:13 +08:00
    jonty
        1
    jonty  
       261 天前
    AIO 的话,没啥拓展需求,12 代 i3 将将够组一套吧
    paopjian
        2
    paopjian  
       261 天前
    现在 LLM 门槛也没有那么低吧, mistral 7b 也不小, 真需要就找在线服务吧
    winson030
        3
    winson030  
       261 天前 via iPhone
    好奇,一两千的预算,不上独显怎么跑模型?
    hahiru
        4
    hahiru  
       261 天前
    从你的描述中看得出来,你似乎并没有明确的大模型需求。
    因为大部分小模型预设的并不好用,得针对性微调。
    微调比加载需要更多显存。如果不想微调也得有显卡,不然 CPU 那速度真不如不用。
    建议先主力机跑通流程,然后选符合门槛的小型机配置。
    opengps
        5
    opengps  
       261 天前
    建议先用你自己电脑跑一套,满足需要后再去考虑配置硬件
    nealot
        6
    nealot  
       261 天前 via Android
    据说有些 APU 能把显存魔改到 16G 然后跑大模型

    J1900 还是算了吧
    ychost
        7
    ychost  
       261 天前
    小主跑 LLM 几乎不可能,也不要想着 ALL IN ONE 了 BOOM 就不好了,我的小主机只装了个 Ubuntu ,其余的靠 docker 来安装
    wxd21020
        8
    wxd21020  
    OP
       261 天前
    @hahiru 目前倒是有一个主力台式机,上的 3060TI 显卡,是否可以结合使用呢
    @ychost 那你也是小主机装个 Linux 然后把所有东西都怼到 docker 是吧,这种方式也是可以的。
    @winson030 可以把台式机的 3060TI 显卡拆下来用,不知道能不能支持。
    wxd21020
        9
    wxd21020  
    OP
       261 天前
    @nealot 现在就是想整个机器,1900 肯定是啥也跑不了的
    JensenQian
        10
    JensenQian  
       261 天前
    主机卖掉
    冲个 chatgpt plus
    完毕
    hahiru
        11
    hahiru  
       261 天前
    主力机跑模型,小主机跑 API 可以,其他不要想了。人工智能本地化就是资源堆砌,和小主机的初衷相悖。
    makerbi
        12
    makerbi  
       261 天前
    如果只是关键字提取、文本摘要这种的需求的话用 1~2B 的模型就可以了,llama.cpp 量化部署,纯 CPU 跑就行,内存不要太小都没问题。
    ShadowPower
        13
    ShadowPower  
       261 天前
    @nealot APU 的方案不如直接用 CPU 快,我试过……
    nealot
        14
    nealot  
       261 天前 via Android
    @wxd21020 搜 Reddit 帖子
    I turned a $95 AMD APU into a 16GB VRAM GPU and it can run stable diffusion
    wxd21020
        15
    wxd21020  
    OP
       261 天前
    @JensenQian 我现在就用 3.5 ,plus 感觉没那么大需求

    @hahiru 可以先拿主力机试试
    @makerbi 感谢老哥,现在需求也就搞点文字,提取文本啥的这些需求,我研究一下整个模型。
    @nealot 安排
    ShadowPower
        16
    ShadowPower  
       261 天前
    我之前用 Intel N100 跑过。实际上速度还能接受,这玩意的内存还只是单通道(或者算 32bit 位宽双通道)的。
    再过一段时间也许会有更好的方案,苹果提出的那个还是手机内存+手机闪存的组合。

    找个 DDR5 双通道(在 CPU-Z 里应该显示 32bit 四通道)的主机就好了。不建议选 AMD 平台,因为有内存带宽上限 50GB/s 的限制,只有 APU 能用得上更高的带宽。然而我用 6800H 试了,真实表现不如 CPU 推理。
    ShadowPower
        17
    ShadowPower  
       261 天前
    @nealot Stable Diffusion 和 LLM 的性能表现不一样,我都试过……
    Stable Diffusion 的话,我的 7840HS 比 M2 Pro 都快(用 Olive ONNX ),但是 LLM 则反过来了。
    reeco
        18
    reeco  
       261 天前
    纯 cpu 跑买一块支持 avx512 的 cpu 加 32G 内存,跑跑量化 7b 的也还行。用 gpu 你那块 3060ti 跑 7b 也完全够了,单独配其实也可以考虑 amd rocm ,便宜大碗。但目前这块需求其实没那么强,跑起来新鲜劲一过,容易吃灰。
    network127001
        19
    network127001  
       261 天前
    跑大模型的都是电老虎啊,魔搭社区好像可以白嫖资源
    ShadowPower
        20
    ShadowPower  
       261 天前
    @reeco AVX512 对这个场景没有提升。
    目前的情况,CPU 的运算速度不是瓶颈,瓶颈都在从内存到 CPU 的带宽上。
    wxd21020
        21
    wxd21020  
    OP
       261 天前
    @ShadowPower 那是不是可以等等,感觉也就是热乎劲儿,主要还是没有持续的需求
    ShadowPower
        22
    ShadowPower  
       261 天前
    @wxd21020 可以先玩玩线上的服务,或者用目前的主力机来跑。如果确实没有需求,其实很快就玩腻了,还能省一笔钱。

    其实我也觉得等将来手机本地运行的方案成熟了以后再买会更好。很可能到那个时候,就算是非常低端的处理器,也有这方面的硬件加速,或者根据这种场景做专门的优化了。
    Puteulanus
        23
    Puteulanus  
       261 天前
    reeco
        24
    reeco  
       261 天前
    @ShadowPower 在我的 7950x 上面,llama.cpp avx512 有大约 10%到 20%的提升
    wclebb
        25
    wclebb  
       261 天前

    虽然很奇怪,但如果真想专门跑模型,Mac 8G 说不定也能跑。
    因为 10 核心 16G 能跑。
    reeco
        26
    reeco  
       261 天前
    @wclebb 能跑,7b 量化到 2bit ,iPhone 15 Pro 上就能跑了,但没什么用,模型上限太低了
    Greendays
        27
    Greendays  
       261 天前
    这预算只能捡垃圾吧,看看二手的 P106 和 P40 一类的显卡,这些显卡必须要配合核显是用,坑不少,可靠性也不保障。
    chaos93
        28
    chaos93  
       261 天前
    https://gptcs.chaos.mba/
    试试
    skye
        29
    skye  
       261 天前
    小主机的话,应该只有 mac mini 符合你要求了
    elegantwolf
        30
    elegantwolf  
       261 天前
    确实,16g 甚至 24g 的 Mac mini 大概可以满足你的需求,但是需要额外配置非 cuda 的环境,以及没法用 docker ,我买了一台 16g 的 Mac mini 想试着跑跑,但是因为很难环境隔离,一直没下定决心去污染整个环境,。。。
    thedog
        31
    thedog  
       261 天前
    mac studio 应该是能跑大模型的最佳小设备
    stimw
        32
    stimw  
       261 天前 via Android
    @thedog 目前有几个大模型能支持 apple silicon
    thedog
        33
    thedog  
       261 天前
    @stimw 大多数都可以
    Jiajin
        34
    Jiajin  
       261 天前
    新鲜劲会很快过去了,因为现在开源本地大模型肯定是比不过 chatgpt 的,除非有明确需求
    Revenant
        35
    Revenant  
       260 天前
    树莓派 4B 跑量化 llm ,1 tokens/s ,这速度谁受得了啊😂😂
    winson030
        36
    winson030  
       260 天前 via iPhone
    @wxd21020 有独显,那就上支持 oculink 的小主机,可进可退,完美😍
    ShadowPower
        37
    ShadowPower  
       260 天前
    @elegantwolf 也许可以试试 LM Studio ,玩腻了能删得比较干净
    zagfai
        38
    zagfai  
       260 天前
    AMD 5600G
    Ayahuasec
        39
    Ayahuasec  
       260 天前 via Android
    我在用 N100 的小主机跑 q4km 量化的 14b 的 qwen ,机器装了根 32G 的内存,效果还可以,就是速度大概只有 2-3 tokens/s ,而且跑的时候风扇狂转
    laminux29
        40
    laminux29  
       260 天前   ❤️ 1
    1.有信息保护的场景,才需要自己买服务器跑大模型,其他场景完全没必要。

    2.现在 OpenAI 的 GPT4 (离线版)、MS Copilot (联网版) 和 Google Gemini (联网版)之外,其他的各种 AI ,质量真的是差,完全没私有化部署意义。
    kneo
        41
    kneo  
       260 天前 via Android
    除非你有自觉倾向,否则不建议你尝试小主机大模型的吐豆速度。
    lrigi
        42
    lrigi  
       260 天前 via iPhone
    @elegantwolf ollama 和那些 webui 都是当前目录下配置环境,何来污染一说😧
    wxd21020
        43
    wxd21020  
    OP
       260 天前
    @winson030 列入方案计划
    @Ayahuasec 能跑就行了,速度忍一忍
    blackmirror
        44
    blackmirror  
       260 天前
    2000 的机器能跑模型吗
    findex
        45
    findex  
       260 天前 via iPhone
    建议放弃。我有个 n100 配上 32G ddr5 内存,无独显无法跑大模型或者小一点的模型。建议换高功率 cpu 加独显。主要看现存和流处理器。
    dayeye2006199
        46
    dayeye2006199  
       260 天前
    感觉还不如 colab 。
    一个月 10 块美元
    shm7
        47
    shm7  
       260 天前
    wo tmd laugh de desk dou yao xuan diao le
    lchynn
        48
    lchynn  
       259 天前
    @laminux29 自己部署,多数都是找基线大模型微调或者做 RAG 场景的。 并不太依赖模型本身逻辑推理能力,所以一般 30B 的模型微调后能做一个凑合用的企业知识库就满足很多场景了。
    obfuscator
        49
    obfuscator  
       258 天前
    你这个预算,显卡那块就压的死死的
    只能选择 P106 或者是它的难兄难弟 P104 、P102 那些了
    至于 P4 ,想必你预算是不够的
    mkdirmushroom
        50
    mkdirmushroom  
       257 天前
    @ShadowPower 还好大佬说了 AMD 平台的内存带宽限制,我也准备入手小主机跑大模型,本来想买 8845hs 的,看到内存带宽限制劝退了。
    mkdirmushroom
        51
    mkdirmushroom  
       257 天前
    @ShadowPower 大佬还是有点疑问,我看了下 AMD 新的移动端处理器 8845hs 的介绍,双通道 DDR5 5600 理论上是有大约 90GB/s 的带宽的,是芯片内部做了限制吗?
    ShadowPower
        52
    ShadowPower  
       257 天前
    @mkdirmushroom AMD 的 IF 总线带宽有限……
    台式机处理器还好,限制没有那么大,基本上什么内存都可以正常发挥。

    移动端就不一样了。我刚刚测出来的数据:


    这是 6400MHz 的内存,可以看到核显的读写带宽基本上都砍了对半,但是同时读+写( Copy )接近两者的总和。
    而 CPU 的读取带宽只有约 50GB/s ,写入则可以达到 86GB/s ,但是同时读写倒不是两者的总和。

    对于跑 LLM 推理的场景,对内存读取带宽要求挺高,瓶颈几乎都在这里,而写比读少很多。

    虽然内存带宽真的有将近 90GB/s ,但跑 LLM 时,实际上可以视为只有 50GB/s……
    GPU 会更慢,也是因为读取带宽更低。
    mkdirmushroom
        53
    mkdirmushroom  
       256 天前
    @ShadowPower 感谢大佬的解惑,感觉 8845hs 这个马甲 U 应该也差不多。那如果是小主机的话大佬推荐哪个 U 呢,目前在观望的小主机的 U 有 i9 13900h 、i9 12900h 、i5 12450h 还有 AMD 家的 8845hs ,价格应该是依次递减的,不过巨硬家的内存频率最多到 5200 。
    mkdirmushroom
        54
    mkdirmushroom  
       256 天前
    @ShadowPower 还有 Intel Core Ultra 5 125H ,它的定位和 8845hs 差不多,但是稍微贵一点。
    刚刚看了些评测,在双通道 DDR5 5600 32GB ,PCIE4.0 SSD 2TB 环境下:
    Ultra5 的内存带宽的 CPU 读写及延迟分别是 71058 MB/s 、70765 MB/s 、150.4ns
    8845hs 则为 61887 MB/S 、86688 MB/s 、90.5 ns
    AMD 的写入和延迟好一点,Intel 的读取高了大概 10GB/s
    ShadowPower
        55
    ShadowPower  
       256 天前
    @mkdirmushroom 如果内存频率一样的话,它们应该没什么明显的差别。内存延迟的影响不大,GPU 和显存之间的延迟要更高。
    renyi1986
        56
    renyi1986  
       256 天前
    现在 8700 不就可以跑大模型,对应的小主机也有了
    wxd21020
        57
    wxd21020  
    OP
       256 天前
    @mkdirmushroom 老哥,你要是配好了,甩配置给我一下,我学习学习;其实里面有些东西我还是盲区,现在还在摸索。
    mkdirmushroom
        58
    mkdirmushroom  
       256 天前
    @wxd21020 准备等的天钡的 Gem12 了( 8845hs ),还没出,大概 3 月初上架,准系统价格估计在 2600 左右。
    lchynn
        59
    lchynn  
       255 天前
    @mkdirmushroom 8845HS 就是多了 NPU 的 7840 吧, 这个多出来的 NPU 对 AI 推理真的有帮助么? 它支持 CUDA ?
    mkdirmushroom
        60
    mkdirmushroom  
       253 天前
    mkdirmushroom
        61
    mkdirmushroom  
       246 天前
    @wxd21020 买了 gem12 了,8845 主机,准系统 2699 ,两个 m.2 ,一个 oculink ,两个 usb4 ,2 个 2.5G 网口,带副屏幕和指纹。感觉性价比蛮高,就是到手会有点晚,要 4 月初
    uniqueman
        62
    uniqueman  
       225 天前
    @mkdirmushroom 这个能跑多大规模的模型?
    mkdirmushroom
        63
    mkdirmushroom  
       225 天前
    @uniqueman 看你内存大小了,内存大一点带宽高一点,理论上 72B 都能跑,不过速度比较慢。
    lchynn
        64
    lchynn  
       182 天前
    @mkdirmushroom 买了 GEM12 了么? OLLAMA 或者 LM-STUDIO 推理 7B 的 gguf 模型咋样? 有测试结果么?
    wxd21020
        65
    wxd21020  
    OP
       182 天前
    @lchynn 坐等+1 ,我还在等 618 ,还没下手呢
    lchynn
        66
    lchynn  
       182 天前
    @wxd21020 8848HS 的 NPU 好像说 FP16 是 TFLOPS ; 估计是瞎吹吧。
    3060 12G 的 FP16 (half) 才 12.74 TFLOPS
    lchynn
        67
    lchynn  
       182 天前
    8845HS 的 NPU 好像说 FP16 (half) 的算力是 16 TFLOPS ; 估计是瞎吹吧。
    3060 12G 的 FP16 (half) 才 12.74 TFLOPS
    mkdirmushroom
        68
    mkdirmushroom  
       182 天前
    @lchynn 买了啊,目前是我的主力家庭服务器,ollama 7b 推理肯定没问题啊,大部分电脑都随便跑的,主要还是看内存带宽的。我还试了 qwen 的 72B 4bit ,大概 2 ,3Token/s 吧。

    我目前是 PVE 分了一个 32GB 内存的 ubuntu 跑 ollama ,基本上都用的 14B ,大概能有 10 几 token/s 吧。
    mkdirmushroom
        69
    mkdirmushroom  
       182 天前
    @mkdirmushroom
    @lchynn 8845hs 的 npu 算力不是浮点数,是整数 16TOPS
    lchynn
        70
    lchynn  
       182 天前
    @mkdirmushroom 有没有试一下 Code-Qwen 或者 Deepseek Code ? 谢谢, 如果速度可以, 感觉可以代替 Copilot 了
    tclm
        71
    tclm  
       177 天前
    @mkdirmushroom

    老哥,配的多少内存,我准备搞一台 8845HS (或 Utral5 125H )+ 96G ( 48G 5800Hz * 2 ) 来跑 70B 的模型,只做本地推理,按你的经验,有搞头吗?
    tclm
        72
    tclm  
       177 天前
    @tclm
    @mkdirmushroom

    内存是 96G ( 48G 5600Hz * 2 )

    我主要担心的是 8845HS 在内存足够的情况下,处理器性能是否满足 70B 的推理要求。
    tclm
        73
    tclm  
       177 天前
    @tclm
    @mkdirmushroom

    主要是推理效率,也不能太慢对吧,如果 CPU 跑不了 70B 的话,那内存的预算其实可以削减下来.
    mkdirmushroom
        74
    mkdirmushroom  
       174 天前
    @tclm 有点慢的,我试过,大概就 2.3token/s 吧
    tclm
        75
    tclm  
       173 天前
    @mkdirmushroom

    嗯,感谢,那纯 CPU + 内存 进行 70B 模型推理还是很勉强的事情.
    AndyWang666
        76
    AndyWang666  
       172 天前
    @mkdirmushroom GEM12 散热怎么样,我最近也在看。另外 oculink 能直接外接显卡跑模型吧?就是不知道 pve 里能不能直通 oculink
    mkdirmushroom
        77
    mkdirmushroom  
       168 天前
    @AndyWang666 散热非常好,但是我的机器低负载有电流或者电报的声音,换了一台还是更严重了,只好忍了。pve 直通 oculink 没试过,手里没有显卡坞。
    AndyWang666
        78
    AndyWang666  
       167 天前
    @mkdirmushroom 你是带副屏指纹的?听说带这玩意的有这毛病,这两天准备也入了,618 便宜了 100
    wxd21020
        79
    wxd21020  
    OP
       167 天前
    @AndyWang666 我想入个极摩客 M6 ,GEM12 有点略贵,预算跟不上了
    hootigger
        80
    hootigger  
       164 天前 via iPhone
    @mkdirmushroom gem12 也有电流声吗?滋滋的,我买的火影 a8 8845hs 也是,然后今天刚换货。不会也换个更严重的吧。。
    AndyWang666
        81
    AndyWang666  
       162 天前 via Android
    @wxd21020 我已经入了 gem12 了,ssd 只能上单面颗粒,买的 850x 4t 都退了,上了 96g 内存,今天刚装完系统。win server 2025 打驱动太麻烦了,被我直接换 win11 了
    mkdirmushroom
        82
    mkdirmushroom  
       161 天前
    @hootigger 应该是电感啸叫声,我刚开始有点介意,现在无所谓了,反正正常也听不到。
    hootigger
        83
    hootigger  
       159 天前 via iPhone
    @mkdirmushroom 经历差不多,我换货后。这个刚开始我听着声音很小。今天发现又出来了,我也只能接受了。就是低负载有。也就晚上能听到点。凑上去,也还好。玩游戏起来就没有了。整体还行主要火影价格还是香
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5540 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 08:25 · PVG 16:25 · LAX 00:25 · JFK 03:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.