V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lcdxiangzi
V2EX  ›  Hadoop

请教 9 台机器的 hadoop 集群角色分配问题

  •  
  •   lcdxiangzi · 2019-03-28 17:14:12 +08:00 · 4799 次点击
    这是一个创建于 2059 天前的主题,其中的信息可能已经有所发展或是发生改变。
    zookeeper,hive,hbase,都分别应该怎样分配?

    我本来以为 zookeeper、hbase 都应该全集群部署,hive 是哪个机器需要用,就装在哪个机器。

    但是看了几个帖子,发现有人是部分机器部署部分功能。

    新手,不懂,请大佬指点,谢谢。

    上面提到的帖子
    https://blog.csdn.net/lepton126/article/details/60866664
    12 条回复    2019-03-29 16:43:24 +08:00
    lcdxiangzi
        1
    lcdxiangzi  
    OP
       2019-03-28 17:17:43 +08:00
    应该是我关键字用的不对,如果搜集群角色分配,文章还是蛮多的,我去研究一下。大佬们如果方便,也帮忙指点一下,多谢
    cs419
        2
    cs419  
       2019-03-28 21:08:12 +08:00   ❤️ 1
    新手用 9 台机器? 一般入门学习要么单节点 要么也就 3 5 个节点吧
    你应该先搞清楚每个组件的作用 再考虑机器的分配
    lcdxiangzi
        3
    lcdxiangzi  
    OP
       2019-03-28 23:21:10 +08:00 via Android
    @cs419 书都看过,小项目也写了,也出过分析结果。所以想搞个大一点的。和领导申请下来资源了,结果不知道该怎么分配角色,囧😓
    liprais
        4
    liprais  
       2019-03-28 23:23:39 +08:00   ❤️ 1
    你其实要考虑的是怎么在 hdfs,hbase 和 yarn 之间分配资源,而这又取决于你的集群是干啥用的
    zookeeper 正常使用几乎不会成为瓶颈
    blueskea
        5
    blueskea  
       2019-03-29 01:29:32 +08:00   ❤️ 1
    我说一些自己的理解,不一定对。假设你 9 台机器硬件是一样的,网络也是同级的。
    zookeeper 三台就够了。
    datanode、nodemanger、hregionserver 需要一一对应,每台机器都装。
    namenode1、namenode2、hmaster1、hmaster2、resourcemanager1、resourcemanager2、jobhistory、hivemeta、mysql 分别放在九台服务器上。
    hive 控制环境每台机器都装也没事,不用的时候就是占用少许硬盘空间。
    yuikns
        6
    yuikns  
       2019-03-29 01:44:20 +08:00   ❤️ 1
    zk 随便装几个就行但和 data node, name node, yarn/mesos, hbase, hive, spark-worker 等批量脚本一样,一次准备,每台机器都装其实更简单。

    顺便的,bigtop ( http://bigtop.apache.org/ ) 这个 repo 挺好用的,可以直接装 rpm 然后脚本就写下配置就行。

    作为 hive 的 metastore,要是用 mysql,分布式不好弄吧?我试过用 tidb 取代,是可以用的,貌似也没啥坑,性能还没测过,不过这不太是 bottleneck。
    lcdxiangzi
        7
    lcdxiangzi  
    OP
       2019-03-29 09:21:27 +08:00 via Android
    @liprais 我的需求比较简单,只是初级的数据分析,数据量不是很大。

    @blueskea 有几个问题不是很清楚,想问一下。我理解的 zookeeper 是做最外围的集群资源管理。不需要做集群的全覆盖吗?还是说我对 zookeeper 的工作机制理解有误?另外,hbase 的角色和 hdfs 的角色以及其他的角色在分配上要做到资源不重合吗?我看您这边给的思路好像是避开了重合。

    @yuikns mysql 不可以做单机部署吗?我本来想着 hive 和 mysql 放在一起就可以了,也不知道是不是合适。。。
    yuikns
        8
    yuikns  
       2019-03-29 09:51:18 +08:00 via iPad
    @lcdxiangzi 我说的是 MySQL 多机部署麻烦,不如就放单机好了
    abcfyk
        9
    abcfyk  
       2019-03-29 10:40:39 +08:00   ❤️ 1
    装原生 hadoop ? 不装 ambari/HDP, cloudera/CDH 这种集成环境?
    请参考 cloudera 的从 3 个节点到 1000 个节点的 主机和角色分布文档:
    https://www.cloudera.com/documentation/enterprise/6/6.1/topics/cm_ig_host_allocations.html
    lcdxiangzi
        10
    lcdxiangzi  
    OP
       2019-03-29 11:13:26 +08:00
    @abcfyk 这个是我最近在关注的一个问题,之前是奔着学习 hadoop 的角度下手的,所以使用了原生 hadoop,配套在读 hadoop 的源码。
    cdh 和原生的区别大吗?源码方面的资料是否配套,都是需要了解的问题。还没有来得及去看。。。。
    hyperxu
        11
    hyperxu  
       2019-03-29 11:25:21 +08:00
    lcdxiangzi
        12
    lcdxiangzi  
    OP
       2019-03-29 16:43:24 +08:00
    参考大家的回复,了解一下 cdh,发现这个应该是条正道。集成环境果然不一样。准备走这条路了。
    谢谢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2638 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 04:39 · PVG 12:39 · LAX 20:39 · JFK 23:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.