请教 9 台机器的 hadoop 集群角色分配问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Apache Hadoop

› Hortonworks Sandbox

› Intel Hadoop Distribution

› Treasure Data

这是一个创建于 2105 天前的主题，其中的信息可能已经有所发展或是发生改变。

zookeeper，hive，hbase，都分别应该怎样分配？

我本来以为 zookeeper、hbase 都应该全集群部署，hive 是哪个机器需要用，就装在哪个机器。

但是看了几个帖子，发现有人是部分机器部署部分功能。

新手，不懂，请大佬指点，谢谢。

上面提到的帖子
https://blog.csdn.net/lepton126/article/details/60866664

12 条回复 • 2019-03-29 16:43:24 +08:00

lcdxiangzi

2019-03-28 17:17:43 +08:00

应该是我关键字用的不对，如果搜集群角色分配，文章还是蛮多的，我去研究一下。大佬们如果方便，也帮忙指点一下，多谢

cs419

2019-03-28 21:08:12 +08:00

新手用 9 台机器？一般入门学习要么单节点要么也就 3 5 个节点吧
你应该先搞清楚每个组件的作用再考虑机器的分配

lcdxiangzi

2019-03-28 23:21:10 +08:00 via Android

@cs419 书都看过，小项目也写了，也出过分析结果。所以想搞个大一点的。和领导申请下来资源了，结果不知道该怎么分配角色，囧😓

liprais

2019-03-28 23:23:39 +08:00

你其实要考虑的是怎么在 hdfs,hbase 和 yarn 之间分配资源，而这又取决于你的集群是干啥用的
zookeeper 正常使用几乎不会成为瓶颈

blueskea

2019-03-29 01:29:32 +08:00

我说一些自己的理解，不一定对。假设你 9 台机器硬件是一样的，网络也是同级的。
zookeeper 三台就够了。
datanode、nodemanger、hregionserver 需要一一对应，每台机器都装。
namenode1、namenode2、hmaster1、hmaster2、resourcemanager1、resourcemanager2、jobhistory、hivemeta、mysql 分别放在九台服务器上。
hive 控制环境每台机器都装也没事，不用的时候就是占用少许硬盘空间。

yuikns

2019-03-29 01:44:20 +08:00

zk 随便装几个就行但和 data node, name node, yarn/mesos, hbase, hive, spark-worker 等批量脚本一样，一次准备，每台机器都装其实更简单。

顺便的，bigtop （ http://bigtop.apache.org/ ）这个 repo 挺好用的，可以直接装 rpm 然后脚本就写下配置就行。

作为 hive 的 metastore，要是用 mysql，分布式不好弄吧？我试过用 tidb 取代，是可以用的，貌似也没啥坑，性能还没测过，不过这不太是 bottleneck。

lcdxiangzi

2019-03-29 09:21:27 +08:00 via Android

@liprais 我的需求比较简单，只是初级的数据分析，数据量不是很大。

@blueskea 有几个问题不是很清楚，想问一下。我理解的 zookeeper 是做最外围的集群资源管理。不需要做集群的全覆盖吗？还是说我对 zookeeper 的工作机制理解有误？另外，hbase 的角色和 hdfs 的角色以及其他的角色在分配上要做到资源不重合吗？我看您这边给的思路好像是避开了重合。

@yuikns mysql 不可以做单机部署吗？我本来想着 hive 和 mysql 放在一起就可以了，也不知道是不是合适。。。

yuikns

2019-03-29 09:51:18 +08:00 via iPad

@lcdxiangzi 我说的是 MySQL 多机部署麻烦，不如就放单机好了

abcfyk

2019-03-29 10:40:39 +08:00

装原生 hadoop ？不装 ambari/HDP, cloudera/CDH 这种集成环境？
请参考 cloudera 的从 3 个节点到 1000 个节点的主机和角色分布文档：
https://www.cloudera.com/documentation/enterprise/6/6.1/topics/cm_ig_host_allocations.html

lcdxiangzi

2019-03-29 11:13:26 +08:00

@abcfyk 这个是我最近在关注的一个问题，之前是奔着学习 hadoop 的角度下手的，所以使用了原生 hadoop，配套在读 hadoop 的源码。
cdh 和原生的区别大吗？源码方面的资料是否配套，都是需要了解的问题。还没有来得及去看。。。。

hyperxu

2019-03-29 11:25:21 +08:00

https://www.hyperxu.com/2018/09/05/install-cdh5-14/
文中有角色分配参考图

lcdxiangzi

2019-03-29 16:43:24 +08:00