研究室只有 2 台服务器,每台上面 8 块显卡。每天都很多人要跑实验,经常出现抢显卡打架的情况。
是否有现成的工具可以满足下面的需求呢:
1
laqow 2018-02-16 15:57:29 +08:00 via Android
自己以前实验室没这么紧张,没具体弄过。不知道你们做啥实验,生物信息的话可以拿 autodock,zdock 之类的关键字搜搜日本大学或国内大学的公共实验平台,可以看他们的管理方法。另外一些商业软件运算自带这种系统的。
|
2
churchmice 2018-02-16 16:02:59 +08:00 via Android
sungrid
|
3
razrlele 2018-02-16 17:56:04 +08:00 via iPhone
|
4
wannafly 2018-02-16 18:00:11 +08:00
最传统的 IBM 的 LSF 应该就可以, 使用方法就是你描述的那样.
|
5
hackpro 2018-02-16 18:31:18 +08:00 via iPhone
好问题,关注,组里 DL 大户太狠了……
|
6
swulling 2018-02-16 21:49:28 +08:00 via iPhone 1
自己写一个吧,周末应该可以写一个能用的
|
7
defunct9 2018-02-16 21:54:02 +08:00 via iPhone
挖矿很不错啊不错👍
|
8
xuanyuanaosheng 2018-02-16 23:01:37 +08:00 via Android
slurm 或者 lsf,这些是传统的调度系统,也可以研究下 singlarity,这个是类似于 docker 的
|
9
omph 2018-02-16 23:35:50 +08:00
用 Hadoop Yarn 搭建一个资源管理平台
|
10
msg7086 2018-02-17 00:52:31 +08:00
前几天刚刚写过一个类似的,不过没有普遍性(也不像你说的那样能动态调度或者有用户管理)。
不过从头写一个不麻烦 XD |
11
luoshuangfw 2018-02-17 04:24:19 +08:00 via Android
楼主的需求正是传统意义上的集群调度系统。可以从 PBS 开始了解,开源的闭源的都有,闭源代表如 2 楼提到的 SunGridEngine
|
12
speedcell4 OP @msg7086 可以开源一下作为参考么,多谢多谢~
|
13
msg7086 2018-02-19 07:07:53 +08:00
@speedcell4 https://g.x86.men/root/KumaTama
请不要将 Repo 地址或内容转发到其他网站上。一周后我会关掉访问权限。 这套东西对其他人来说没有直接运行的价值,所以我觉得最多就是看看代码,抄抄结构就行了。 |