实验室想采购个深度学习工作站，候选采购商给了个配置建议，菜鸡不是很懂，希望大佬们给个建议

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1701 天前的主题，其中的信息可能已经有所发展或是发生改变。

实验室情况是:

1.人很多，并且目前没有旧的可用，好像是原来有但出问题了，我之前帮师兄跑实验都是自费买的 GPU 租赁服务，泪目。

2.主要的计算任务是 NLP 方向的。

3.GPU 服务器计划放入空调房，噪音和产热问题好像并不用太过担心。

4.预算方面不能一次性超 10 万，如果存储空间不够，可以后续添加。

楼上实验室给我推荐的采购商的建议是：

CPU:2* 英特尔 XEON E5-2680V4/14 核 /28 线程 /2.4GHz-3.3GHz

内存：6* 32GB R-ECC DDR4 2666MHz 服务器内存（共有 24 个内存插槽，剩余 18 个）

硬盘:960G SATA 2.5 寸企业级固态硬盘+4TB SATA 7.2K 3.5 寸企业级机械硬盘（共有 24 个硬盘插槽，剩余 22 个）

电源:2000W 2+2 钛金级冗余电源，最大支持 8 块 GPU

显卡：4*NVIDIA Geforce RTX 2080Ti 11G （共有 8 个 GPU 插槽，剩余 4 个）

本人的一些不成熟的想法：SSD 是不是该上 nvme （或 M.2 的 nvme ），速度才是重点，空间是其次？以后有其他预算是扩容还是另外选购新机器？

第 1 条附言 · 2020-06-05 15:45:56 +08:00

感谢大佬们的意见。

综合一下，我们打算改成：

1.效率相关，内存要么 4 条，要么 8 条，我们用 4 条就好了。

2.是我上面写得不够明白，其实电源是 4 个，一组两个，一组共 4000W，第二组做备用，应该够用了。

3.显卡改为 RTX8000 或 RTX6000，单卡显存大还是很重要，因为现在模型趋势是越来越大。

4.全上 SSD，NVMe 最好，主硬盘还是尽量 NVMe （ PCIe 也行），本地持久化存储空间不需要很大，可以另外组 nas 。

5.CPU 选新款的，选 epyc 或者 Xeon W 。

GPU

实验室

nvme

插槽

32 条回复 • 2020-06-05 17:50:56 +08:00

aptx4689

2020-06-04 19:23:25 +08:00

显然空间才是最重要的，人这么多，要放的数据必然多

chenchangjv

2020-06-04 19:33:10 +08:00

建议硬盘再来一个 4TB 的，固态并不重要。
服务器的 SAS 盘性能不错，系统不太需要放到固态里面。对 NLP 来说的话，内存也足够大了，应该也不用直接跟硬盘交互数据，所以硬盘性能不太重要，容量比较重要。/home 盘最好是 4T 的，2TB 的盘不是很禁用，因为大家都习惯把东西放在 /home 。我们二十多人的组，三台服务器加起来硬盘也有 20T 了。显卡的话看你们的人数了，不跑 BERT 的话，一般一个人独占一张卡还是有必要的。其他的没啥可挑的。如果你要跑 BERT 之类的话，可能就不太能多人共用了。

xwander

2020-06-04 19:35:34 +08:00

@aptx4689 #1 但 sata 的和 nvme 的速度真的差好大··· ···，不过计算型任务也的确不怎么受存储速度左右。

Xbluer

2020-06-04 19:45:13 +08:00

存储什么的可以上 NAS 啊

chizuo

2020-06-04 19:48:53 +08:00

挺好的，如果还有预算的话建议内存再加一点。考虑到实验室多人使用，数据都要 load 到内存。

FaceBug

2020-06-04 20:23:14 +08:00

建议硬盘要 raid

idclight

2020-06-04 20:41:41 +08:00

SSD 换 6T sas 组 raid0，记得上 raid 卡。

johnchshen

2020-06-04 20:48:08 +08:00 via Android

cpu 是几年前的老款，很可能主板 CPU 都是洋垃圾回收。

内存要不 4 个，要不 8 个，不然多通道效果可能差，且内存频率未标。

硬盘没 raid1，raid5，速度慢且数据没安全。且简单标个企业级。奸商都直接给淘汰备品的。

硬盘容量太小，没 ssd cache，图形类机器学习的话，空间必然不够。

总结：换家有经验的有实力的供应商

bnuliujing

2020-06-04 21:57:40 +08:00

我们半年前也配了一台类似的设备，Supermicro 的机器，cpu 是 Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz * 2，，内存 256G，硬盘是 500G SSD (RAID 0) + 8T （ RAID 5 ）如果没记错的话。XEON E5-2680V4 有点老了，换新一点的 cpu 吧，另外硬盘考虑扩容+RAID 。

Tink

2020-06-04 22:05:39 +08:00 via iPhone

内存加两个

redstar78kg

2020-06-04 23:00:53 +08:00 via Android

内存条用六个莫名其妙。

zhaidoudou123

2020-06-05 00:09:28 +08:00

Cpu 是不是有点旧了，硬盘要组 raid 吧
说起来这个配件其实指的是 Apple 的配件😂

gainsurier

2020-06-05 00:18:47 +08:00 via iPhone

好奇为啥不上 epyc

longbye0

2020-06-05 01:01:08 +08:00

容天？
ssd 很重要，对 cv 来说至少是的。

alphatoad

2020-06-05 01:09:43 +08:00 via iPhone

Nvme 占 pcie 通道啊，sata 便宜很多

superlc

2020-06-05 01:23:05 +08:00 via iPhone

NLP 不清楚，可能对 IO 要求低？我个人感觉 cv 方面 ssd 非常重要，严重影响速度。我们之前数据盘用 HDD，gpu 只有 70%左右的利用率，后来我插了块自己的 ssd 上去，四个 gpu 都是 99%利用率，爽到

而且内存需要这么大吗？我们 64G 基本用不完，你要是 HDD+大内存的话可以搞 ramdisk ？

我们去年 9 月买的 4 块 2080ti 才人民币大概 7.5w 左右，现在 10w 应该可以买更好的吧

superlc

2020-06-05 01:37:47 +08:00 via iPhone

@chizuo 应该是只有正在做 argumentation 的几个 batch 会临时在内存里，然后很快就挪到显存去了。如果显存只有 44G，内存应该不是瓶颈了，除非是做 ramdisk，把整个数据集放到内存里去

abcdabcd987

2020-06-05 01:38:32 +08:00

NLP 的话 2080Ti 显存是不是非常不够？

pC0oc4EbCSsJUy4W

2020-06-05 06:51:30 +08:00

如果追求 io 速度，单个 nvme 是不够的，可以组个数据服务器，如果 io 需求很大的话，比如组一个 ceph 节点（二手便宜志强也行，主要吃内存），64G 内存 64T HDD，io 上基本可以满足了。但是不太了解 io 需求多大

twl007

2020-06-05 07:31:10 +08:00 via iPhone

电源功率不够一块卡基本都得 300w 左右全速跑需要升级到 3000w 的电源而且 CPU 太老了不推介

另外你需要全上 SSD 能上 NVME 最好拿 HDD 存训练集还行跑训练就算了需要存储的话可以单独采购一个做存储的机器

现在这个配置基本不适合你跑机器学习另外把内存加到 256G 比较好

twl007

2020-06-05 07:34:00 +08:00 via iPhone

我是按照你们以后升级 GPU 到 8 卡算的那个电源现在可以用但以后升级潜力堪忧就是了

weiziyan

2020-06-05 07:45:11 +08:00

为什么要买老至强？不需要多路就买 Xeon W，需要的话就买 Xeon Scalable

nnqijiu

2020-06-05 09:06:22 +08:00

显卡才是最重要的，内存没必要用那么大

Porphet

2020-06-05 09:29:36 +08:00

@abcdabcd987 现在 nlp 各种模型的趋势就是越大越好，11g 能用，但是对大模型就得想办法分到多块卡上了，对科研人员很不友好。所以推荐 RTX8000，😂

madeye

2020-06-05 09:38:35 +08:00

主要做 NLP 的话，显存肯定是不够的。

以 BERT-large 为例，如果你想要本地 fine-tune 的话，12G 显存差不多对应 batch size 12，这个 batch size 太小因而很难收敛。

NCZkevin

2020-06-05 10:25:26 +08:00

硬盘 NLP 的话没必要，分区的时候 home 多分点，否则以后会后悔的。我们实验室配置和这差不多，主要是显卡最好用显存大的，要不然跑 bert 有点吃力。

sl0000

2020-06-05 10:45:21 +08:00

我个人用的 c621 准系统
supermicro 7049gp-trt ¥：11000
亚马逊特价买的，这个自带双钛金 2100w 冗余电源，8 * sata 硬盘 raid
2 * intel gold 6244 es 2.8ghz 工程样品 ¥：1800 工程样品性价比比较高
4TB wd blue ssd ¥：3500
2 * 8T sata hgst 最强空气盘 ¥：2400
4*32GB ecc 2993 ¥：3200

sl0000

2020-06-05 10:47:35 +08:00

大船货 intel 200G 傲腾 m.2 ¥：2000 主板唯一的一个 m.2 接口插的这个作系统盘