最近有深度学习的大量需求,需要搭建一个 gpu 集群方便大家一起使用。
我的初步想法就是:
1.自己购买显卡,cpu,主板等组装多台主机(这个就后续慢慢看用些什么显卡了)
2.通过 docker swarm 的方式将这些电脑连接在一起,使用 docker 的目的就是为了隔离开每个用户,同时也保证了每个人的 root 权限, 大家可以通过 ssh 服务登录到自己创建的容器内。除此之外,通过 swarm 这样子每个人可以使用不同主机的显卡进行训练,不用在每台机器上反复配置。
3. docker swarm 会有一个管理节点和计算节点,我网上调研的结果就是通过 Infiniband 网络连接存储节点来完成运算数据的读取和存储。其实在这里我有个问题,这样子的话能否保证一个读写的速度,还想来请教一下过来人。另外,是否可以各台主机有自己的系统存储外,一起共用一个数据盘,不知道如何实现这个。
资金有限,也是在慢慢摸索不断进步,网上搜索到的教程都是些零零碎碎的。谢谢大家听我啰啰嗦嗦到这,如果有过来人搭建过愿意分享的那真的是万分感谢的。如果大家看到些什么好的教程也可以丢给我,有什么好的想法也可以告诉我,谢谢大家了。
1
songjf OP 有幸看到的话, 请移步到 https://www.v2ex.com/t/617275
|