实验室破天荒配了台曙光 w780-g20 搞深度学习,但是实验室有好多人,想分着用,请问有啥经验吗,比如选择架构 kvm,xen 这类疑问?
1
zmj1316 2018-11-21 22:04:10 +08:00 1
我给配的是用 Nvdia Docker,直接基于现有的 Docker 深度学习镜像,tf cnn 什么的基于每种镜像都能配 ,加上 sshd,谁要用了就把镜像起一个容器,ssh 端口映射出去,用户的 home 目录挂进去,直接就给 root 权限,
只要数据存外面,容器被玩坏了就直接重新开一个,基本没有运维的压力了 |
2
fcmy12 OP @zmj1316 多谢,没研究过 docker,我想问的是相比于虚拟机这种形式,docker 好在什么地方,可以实现 vps 这种形式的主机独立分割吗,
|
3
zmj1316 2018-11-22 10:43:12 +08:00
@fcmy12 我觉得主要是配置方便,因为深度学习需要的环境,网上都有 Docker Image,只需要 from: 一下就可以在别人配好的 dockerfile 基础上改了,分割没有 vps 那么彻底,但是容器之间运行的环境是隔离的,除了硬件资源(比如显卡被占用了,硬盘满了这样),其他不会互相影响,和虚拟机没区别。
而且从性能上来说,比虚拟机要高,因为代码执行不是虚拟化的,只是单纯隔离了运行的环境 主要是很适合实验环境,因为可能需要配各种运行环境,虚拟机的话每种环境都要自己配,显卡还要考虑虚拟化的问题。用 Nvidia-Docker 就直接能访问显卡,各种环境都有现成的 |
4
zmj1316 2018-11-22 14:31:37 +08:00
可以去搜一下常用的深度学习库 + docker
比如 caffe docker tensorflow docker pytorch docker cudnn docker 基本都有官方制作的 docker 镜像,这意味着你不需要去一个个配置环境,直接拿过来装上就能用(记得是 Nvidia-Docker ) |