1
lcdxiangzi OP 应该是我关键字用的不对,如果搜集群角色分配,文章还是蛮多的,我去研究一下。大佬们如果方便,也帮忙指点一下,多谢
|
2
cs419 2019-03-28 21:08:12 +08:00 1
新手用 9 台机器? 一般入门学习要么单节点 要么也就 3 5 个节点吧
你应该先搞清楚每个组件的作用 再考虑机器的分配 |
3
lcdxiangzi OP @cs419 书都看过,小项目也写了,也出过分析结果。所以想搞个大一点的。和领导申请下来资源了,结果不知道该怎么分配角色,囧😓
|
4
liprais 2019-03-28 23:23:39 +08:00 1
你其实要考虑的是怎么在 hdfs,hbase 和 yarn 之间分配资源,而这又取决于你的集群是干啥用的
zookeeper 正常使用几乎不会成为瓶颈 |
5
blueskea 2019-03-29 01:29:32 +08:00 1
我说一些自己的理解,不一定对。假设你 9 台机器硬件是一样的,网络也是同级的。
zookeeper 三台就够了。 datanode、nodemanger、hregionserver 需要一一对应,每台机器都装。 namenode1、namenode2、hmaster1、hmaster2、resourcemanager1、resourcemanager2、jobhistory、hivemeta、mysql 分别放在九台服务器上。 hive 控制环境每台机器都装也没事,不用的时候就是占用少许硬盘空间。 |
6
yuikns 2019-03-29 01:44:20 +08:00 1
zk 随便装几个就行但和 data node, name node, yarn/mesos, hbase, hive, spark-worker 等批量脚本一样,一次准备,每台机器都装其实更简单。
顺便的,bigtop ( http://bigtop.apache.org/ ) 这个 repo 挺好用的,可以直接装 rpm 然后脚本就写下配置就行。 作为 hive 的 metastore,要是用 mysql,分布式不好弄吧?我试过用 tidb 取代,是可以用的,貌似也没啥坑,性能还没测过,不过这不太是 bottleneck。 |
7
lcdxiangzi OP |
8
yuikns 2019-03-29 09:51:18 +08:00 via iPad
@lcdxiangzi 我说的是 MySQL 多机部署麻烦,不如就放单机好了
|
9
abcfyk 2019-03-29 10:40:39 +08:00 1
装原生 hadoop ? 不装 ambari/HDP, cloudera/CDH 这种集成环境?
请参考 cloudera 的从 3 个节点到 1000 个节点的 主机和角色分布文档: https://www.cloudera.com/documentation/enterprise/6/6.1/topics/cm_ig_host_allocations.html |
10
lcdxiangzi OP @abcfyk 这个是我最近在关注的一个问题,之前是奔着学习 hadoop 的角度下手的,所以使用了原生 hadoop,配套在读 hadoop 的源码。
cdh 和原生的区别大吗?源码方面的资料是否配套,都是需要了解的问题。还没有来得及去看。。。。 |
11
hyperxu 2019-03-29 11:25:21 +08:00
|
12
lcdxiangzi OP 参考大家的回复,了解一下 cdh,发现这个应该是条正道。集成环境果然不一样。准备走这条路了。
谢谢 |