实验室情况是:
1.人很多,并且目前没有旧的可用,好像是原来有但出问题了,我之前帮师兄跑实验都是自费买的 GPU 租赁服务,泪目。
2.主要的计算任务是 NLP 方向的。
3.GPU 服务器计划放入空调房,噪音和产热问题好像并不用太过担心。
4.预算方面不能一次性超 10 万,如果存储空间不够,可以后续添加。
楼上实验室给我推荐的采购商的建议是:
CPU:2* 英特尔 XEON E5-2680V4/14 核 /28 线程 /2.4GHz-3.3GHz
内存:6* 32GB R-ECC DDR4 2666MHz 服务器内存(共有 24 个内存插槽,剩余 18 个)
硬盘:960G SATA 2.5 寸 企业级固态硬盘+4TB SATA 7.2K 3.5 寸 企业级机械硬盘(共有 24 个硬盘插槽,剩余 22 个)
电源:2000W 2+2 钛金级冗余电源,最大支持 8 块 GPU
显卡:4*NVIDIA Geforce RTX 2080Ti 11G (共有 8 个 GPU 插槽,剩余 4 个)
本人的一些不成熟的想法:SSD 是不是该上 nvme (或 M.2 的 nvme ),速度才是重点,空间是其次?以后有其他预算是扩容还是另外选购新机器?
1
aptx4689 2020-06-04 19:23:25 +08:00
显然空间才是最重要的,人这么多,要放的数据必然多
|
2
chenchangjv 2020-06-04 19:33:10 +08:00
建议硬盘再来一个 4TB 的,固态并不重要。
服务器的 SAS 盘性能不错,系统不太需要放到固态里面。对 NLP 来说的话,内存也足够大了,应该也不用直接跟硬盘交互数据,所以硬盘性能不太重要,容量比较重要。/home 盘最好是 4T 的,2TB 的盘不是很禁用,因为大家都习惯把东西放在 /home 。我们二十多人的组,三台服务器加起来硬盘也有 20T 了。显卡的话看你们的人数了,不跑 BERT 的话,一般一个人独占一张卡还是有必要的。其他的没啥可挑的。如果你要跑 BERT 之类的话,可能就不太能多人共用了。 |
3
xwander OP @aptx4689 #1 但 sata 的和 nvme 的速度真的差好大··· ···,不过计算型任务也的确不怎么受存储速度左右。
|
4
Xbluer 2020-06-04 19:45:13 +08:00
存储什么的可以上 NAS 啊
|
5
chizuo 2020-06-04 19:48:53 +08:00
挺好的,如果还有预算的话建议内存再加一点。考虑到实验室多人使用,数据都要 load 到内存。
|
6
FaceBug 2020-06-04 20:23:14 +08:00
建议硬盘要 raid
|
7
idclight 2020-06-04 20:41:41 +08:00
SSD 换 6T sas 组 raid0,记得上 raid 卡。
|
8
johnchshen 2020-06-04 20:48:08 +08:00 via Android 2
cpu 是几年前的老款,很可能主板 CPU 都是洋垃圾回收。
内存要不 4 个,要不 8 个,不然多通道效果可能差,且内存频率未标。 硬盘没 raid1,raid5,速度慢且数据没安全。且简单标个企业级。奸商都直接给淘汰备品的。 硬盘容量太小,没 ssd cache,图形类机器学习的话,空间必然不够。 总结:换家有经验的有实力的供应商 |
9
bnuliujing 2020-06-04 21:57:40 +08:00
我们半年前也配了一台类似的设备,Supermicro 的机器,cpu 是 Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz * 2,,内存 256G,硬盘是 500G SSD (RAID 0) + 8T ( RAID 5 )如果没记错的话。XEON E5-2680V4 有点老了,换新一点的 cpu 吧,另外硬盘考虑扩容+RAID 。
|
10
Tink 2020-06-04 22:05:39 +08:00 via iPhone
内存加两个
|
11
redstar78kg 2020-06-04 23:00:53 +08:00 via Android
内存条用六个莫名其妙。
|
12
zhaidoudou123 2020-06-05 00:09:28 +08:00
Cpu 是不是有点旧了,硬盘要组 raid 吧
说起来这个配件其实指的是 Apple 的配件😂 |
13
gainsurier 2020-06-05 00:18:47 +08:00 via iPhone
好奇为啥不上 epyc
|
14
longbye0 2020-06-05 01:01:08 +08:00
容天?
ssd 很重要,对 cv 来说至少是的。 |
15
alphatoad 2020-06-05 01:09:43 +08:00 via iPhone
Nvme 占 pcie 通道啊,sata 便宜很多
|
16
superlc 2020-06-05 01:23:05 +08:00 via iPhone
NLP 不清楚,可能对 IO 要求低?我个人感觉 cv 方面 ssd 非常重要,严重影响速度。我们之前数据盘用 HDD,gpu 只有 70%左右的利用率,后来我插了块自己的 ssd 上去,四个 gpu 都是 99%利用率,爽到
而且内存需要这么大吗?我们 64G 基本用不完,你要是 HDD+大内存的话可以搞 ramdisk ? 我们去年 9 月买的 4 块 2080ti 才人民币大概 7.5w 左右,现在 10w 应该可以买更好的吧 |
17
superlc 2020-06-05 01:37:47 +08:00 via iPhone
@chizuo 应该是只有正在做 argumentation 的几个 batch 会临时在内存里,然后很快就挪到显存去了。如果显存只有 44G,内存应该不是瓶颈了,除非是做 ramdisk,把整个数据集放到内存里去
|
18
abcdabcd987 2020-06-05 01:38:32 +08:00
NLP 的话 2080Ti 显存是不是非常不够?
|
19
pC0oc4EbCSsJUy4W 2020-06-05 06:51:30 +08:00
如果追求 io 速度,单个 nvme 是不够的,可以组个数据服务器,如果 io 需求很大的话,比如组一个 ceph 节点(二手便宜志强也行,主要吃内存),64G 内存 64T HDD,io 上基本可以满足了。但是不太了解 io 需求多大
|
20
twl007 2020-06-05 07:31:10 +08:00 via iPhone
电源功率不够 一块卡基本都得 300w 左右全速跑 需要升级到 3000w 的电源 而且 CPU 太老了 不推介
另外你需要全上 SSD 能上 NVME 最好 拿 HDD 存训练集还行 跑训练就算了 需要存储的话可以单独采购一个做存储的机器 现在这个配置基本不适合你跑机器学习 另外把内存加到 256G 比较好 |
21
twl007 2020-06-05 07:34:00 +08:00 via iPhone
我是按照你们以后升级 GPU 到 8 卡算的 那个电源现在可以用 但以后升级潜力堪忧就是了
|
22
weiziyan 2020-06-05 07:45:11 +08:00
为什么要买老至强?不需要多路就买 Xeon W,需要的话就买 Xeon Scalable
|
23
nnqijiu 2020-06-05 09:06:22 +08:00
显卡才是最重要的,内存没必要用那么大
|
24
Porphet 2020-06-05 09:29:36 +08:00
@abcdabcd987 现在 nlp 各种模型的趋势就是越大越好,11g 能用,但是对大模型就得想办法分到多块卡上了,对科研人员很不友好。所以推荐 RTX8000,😂
|
25
madeye 2020-06-05 09:38:35 +08:00
主要做 NLP 的话,显存肯定是不够的。
以 BERT-large 为例,如果你想要本地 fine-tune 的话,12G 显存差不多对应 batch size 12,这个 batch size 太小因而很难收敛。 |
26
NCZkevin 2020-06-05 10:25:26 +08:00
硬盘 NLP 的话没必要,分区的时候 home 多分点,否则以后会后悔的。我们实验室配置和这差不多,主要是显卡最好用显存大的,要不然跑 bert 有点吃力。
|
27
sl0000 2020-06-05 10:45:21 +08:00
我个人用的 c621 准系统
supermicro 7049gp-trt ¥:11000 亚马逊特价买的,这个自带双钛金 2100w 冗余电源,8 * sata 硬盘 raid 2 * intel gold 6244 es 2.8ghz 工程样品 ¥:1800 工程样品性价比比较高 4TB wd blue ssd ¥:3500 2 * 8T sata hgst 最强空气盘 ¥:2400 4*32GB ecc 2993 ¥:3200 |
28
sl0000 2020-06-05 10:47:35 +08:00
大船货 intel 200G 傲腾 m.2 ¥:2000 主板唯一的一个 m.2 接口插的这个作系统盘
|
29
geniussoft 2020-06-05 10:52:49 +08:00
听着不明型号的企业级固态,感觉就是骗钱的或者拆机翻新的。
机械盘上 UltraStar HC520/530,预算不紧张可以富裕一点。 另外个人认为主硬盘还是尽量 NVMe ( PCIe 也行)。 处理器确实也有嫌疑。 |
30
lsylsy2 2020-06-05 10:57:06 +08:00
有资质的对公供应商,洋垃圾回收什么的可能性还是不大
但确实会用几年前的库存款式,在合理合法的范围内缩水 |
31
chizuo 2020-06-05 11:29:34 +08:00
@superlc 嗷,对于数据集我一般是整个 load 到内存的,而不是到一个 batch 了,在从硬盘 read,这样会很慢
|
32
fengdra 2020-06-05 17:50:56 +08:00 via Android
我们以前也是买了几台四卡机器,但是据我观察,大部分人每次都只用一张卡。所以我觉得不如把一台 HEDT+四卡换成两台消费级平台+双卡,这样划算很多
|