V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
madfrog1984
V2EX  ›  Hadoop

15 台规模的 hadoop 集群的机器的硬件配置选择问题

  •  
  •   madfrog1984 · 2016-03-15 11:02:35 +08:00 · 8680 次点击
    这是一个创建于 3204 天前的主题,其中的信息可能已经有所发展或是发生改变。

    请问一下大家公司的集群的机器硬件配置是怎么样的,我们公司的集群的存储使用的是存储设备,不是机器自带的硬盘。由于运维对于存储设备不熟悉,导致经常因为存储设备的问题导致集群宕机,本来应该是运维部门的问题,现在领导要求我们开发部门给出对集群机器的硬件配置 ,集群规模在 15 台左右。

    最简单的就是统一购置,但是领导说了,各个组件的作用还是不一样的,有的是需要 CPU 强劲,有的是需要存储厉害的,非得要做实验找出最佳配置,小公司没有办法。
    在这方面踩过坑的 V 友都来说说

    第 1 条附言  ·  2016-03-15 16:16:56 +08:00
    感谢大家回复,已经定了方案要使用本地自建机房了,现在是想对集群扩容,之前有 5 台 24 core Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40GHz 128GB 的小集群,现在需要添加 10 台 datanode ,这些 datanode 的配置不想这么高了,如果新添加的 datanode 的内存使用 24 core Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40GHz 64GB 的配置,之前有 4 台 datanode 是 128GB 内存。

    如果在 yarn-site.xml 配置中配置
    <property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>98304(96GB)</value>
    </property>
    那内存是 64GB 的 datanode 的内存会用多少呢
    15 条回复    2016-07-15 11:28:33 +08:00
    knightdf
        1
    knightdf  
       2016-03-15 11:06:32 +08:00
    小公司还自己买服务器? AWS 满足你一切需求
    signifox
        2
    signifox  
       2016-03-15 13:20:39 +08:00
    24 core Intel(R) Xeon(R) CPU E5-2630 v2 @ 2.60GHz
    192G memory
    1 * 800G 三星 SSD
    12 * 6T SATA 盘

    Are you OK ?
    liprais
        3
    liprais  
       2016-03-15 14:03:54 +08:00
    aws 搞定收工
    goodryb
        4
    goodryb  
       2016-03-15 14:39:00 +08:00
    这种为啥不用云计算服务呢?资源使用灵活
    allen9527
        5
    allen9527  
       2016-03-15 15:16:22 +08:00 via iPad
    什么业务,能放网上么? aws Azure 都有解决方案的。自己配的话根据你们的业务大概计算一下量再上吧。。。
    madfrog1984
        6
    madfrog1984  
    OP
       2016-03-15 16:05:57 +08:00
    @allen9527 数据确实不能放网上 一是安全性问题,二十数据量比较大,网络传输慢
    madfrog1984
        7
    madfrog1984  
    OP
       2016-03-15 16:06:35 +08:00
    @knightdf 以前定的方案就是在公司内部部署集群
    madfrog1984
        8
    madfrog1984  
    OP
       2016-03-15 16:08:50 +08:00
    @signifox 这个配置还 ok , datanode 的内存好像有些大,预算是紧箍咒
    defunct9
        9
    defunct9  
       2016-03-15 17:51:23 +08:00
    AWS 是不行的。 R730XD 合适, datanode 要求是硬盘大,选最大的硬盘满配即可,以前在京东弄这个。
    julyclyde
        10
    julyclyde  
       2016-03-15 23:13:32 +08:00
    @defunct9 aws 是不行的这句话有证据支撑么?
    jerryshao1984
        11
    jerryshao1984  
       2016-03-16 08:54:19 +08:00
    yarn.nodemanager.resource.memory-mb 这个配置和 hdfs 没有关系,这是 yarn 的配置。 DN 是不需要内存的配置的。

    如果你的机器内存规格不一样,同时你需要 yarn 服务的话, yarn-site.xml 可以根据不同的机器进行单独的配置。
    madfrog1984
        12
    madfrog1984  
    OP
       2016-03-16 09:17:31 +08:00
    @jerryshao1984 多谢,后来网上也查到了之前用的机器配置是一样的 没有注意这个
    defunct9
        13
    defunct9  
       2016-03-16 16:28:12 +08:00
    @julyclyde 噢。 aws 是卖服务的,有钱也是可以。但是 hadoop 这种你既需要算容量, cpu 、内存、乃至是否用 gpu ,还有电力等等,就不适合了,当时的 hadoop 基本是 600 台机器,跑起来是山河一片红,机房要限电,热点数据每天要挪移,还有各种 spark 、 storm 、 impala 各种新鲜的玩意不断要上,弄到 aws ,怎么搞起?得交多少钱?运维愿意估计老板也不愿意。
    julyclyde
        14
    julyclyde  
       2016-03-17 11:59:43 +08:00
    @defunct9 嗯,举出钱的理由确实很有说服力
    xianlin
        15
    xianlin  
       2016-07-15 11:28:33 +08:00
    穷,就远离 AWS ,请便宜的运维人员搞搞,但就不要指望性能和 up time 能达到 AWS 的水平了,一分钱一分货。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2950 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 13:20 · PVG 21:20 · LAX 05:20 · JFK 08:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.