V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
qfdk
V2EX  ›  程序员

elasticsearch 索引( index)数据速度

  •  
  •   qfdk ·
    qfdk · 2017-03-03 17:22:59 +08:00 · 2757 次点击
    这是一个创建于 2852 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近用 Apache nifi 进行数据链的处理。

    用的 posgresSQL 的数据库,里面大概有 26 000 000 左右的数据,拉回本地大概需要 10 分钟,然后要用 es 进行索引,自己写的 bulk 的进程,大概每次入 35000 条数据 大小在 14M 左右。目测大概 20000 条每秒的速度。

    配置如下:

    硬盘 500G HDD 内存 16G CPU i7-3770 OS Ubuntu

    同时跑 Apache nifi 和 elasticearch 2.4.1

    大家的插入(索引 index )速度是多少,来说说参考一下 :) 谢过

    11 条回复    2017-03-08 04:05:11 +08:00
    xss
        1
    xss  
       2017-03-03 17:45:43 +08:00   ❤️ 1
    2Tb 硬盘 [email protected] 一共 16 个核, 64Gb 内存, 入 2kw 数据, 需要 8-12 个小时.

    与你的 es 集群有多少个 node, 定义的分片和副本数, 每个 index 的数据规模有极大关系.

    2.6kw 数据, 16Gb 内存无压力, 磁盘估计也没压力, 你的最大成本是时间成本.

    你入数据的时候盯着点你的磁盘 IO/磁盘空间和内存使用情况.

    bulk 写的不好极容易集群状态 RED, 会导致大量 bulk 任务失败.

    另外, 写的时候最好不要有读操作, 也很容易导致 red
    qfdk
        2
    qfdk  
    OP
       2017-03-03 18:04:26 +08:00
    @xss 一直盯着 io 大概在 100M/s 我的时间大概半小时左右 就有一个 node 没有读取操作。
    ic3z
        3
    ic3z  
       2017-03-03 20:12:46 +08:00 via Android   ❤️ 1
    es ,普通台式机, 5 万条每秒,每条数据不到 200 字节。导了将近 6 个小时,还没到 2 亿条数据,还有 18 亿数据要导。
    qfdk
        4
    qfdk  
    OP
       2017-03-03 20:17:19 +08:00
    @ic3z i7 ?
    ic3z
        5
    ic3z  
       2017-03-03 20:21:14 +08:00 via Android
    @qfdk i5 好像和 cpu 关系不是很大。。 cpu 占用率不高。
    qfdk
        6
    qfdk  
    OP
       2017-03-03 20:22:01 +08:00
    @ic3z SSD ?
    ic3z
        7
    ic3z  
       2017-03-03 20:26:57 +08:00 via Android   ❤️ 1
    @qfdk 修正下,只有 1 万条 /s 没有 ssd
    qfdk
        8
    qfdk  
    OP
       2017-03-03 20:32:21 +08:00
    @ic3z 拿速度咱们差不多 10 000 我是 10 000 - 30 000
    看来是硬盘的问题 你看 io 的情况没有
    mingweili0x
        9
    mingweili0x  
       2017-03-04 06:30:38 +08:00   ❤️ 1
    一般来说 bulk 的数量不要太大,几百条 documents 一起 bulk 就够了吧,否则 latency 太高
    qfdk
        10
    qfdk  
    OP
       2017-03-04 17:53:07 +08:00
    @mingweili0x 你指的是要把分片做小? 但是这样 查库的时间就长了 这样查库的时间多了 不只是 1 倍。 等周一我去实验一下。
    qfdk
        11
    qfdk  
    OP
       2017-03-08 04:05:11 +08:00
    @mingweili0x @ic3z @xss
    最新消息,现在可以做到 200k 每秒了 :) 弄了 4 个 node mapping 提前准备好了。速度基本就这样了,然后 system load average 基本已经满了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1140 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 23:15 · PVG 07:15 · LAX 15:15 · JFK 18:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.