V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
yida1313
V2EX  ›  问与答

做千万级数据处理的单机配置求助

  •  
  •   yida1313 · 2020-06-02 11:56:40 +08:00 · 1826 次点击
    这是一个创建于 1640 天前的主题,其中的信息可能已经有所发展或是发生改变。
    想趁着 618 配个新电脑,做一些数据处理,一般一次的数据量在几百万到一千万级,然后做去重和统计,后期可能还会做一点简单的分析。 预算 1 万以内。(内部环境,无法用外网云计算方式。。。)
    求推荐下配置。我目前的打算是 3800X+丐版 X570+掠食者 32G+三星 EVO+西数紫盘

    再就是有啥快速导入数据的方法么?一大堆 Excel 往 MYSQL 里导,每个 Excel 大概 3-5 万条数据,28 列数据项
    用的 JAVA,目前用 JDBC 拼 insert,一次写入 10 条,导一次需要 40 多个小时。。。

    谢谢大家!!
    12 条回复    2020-06-02 14:52:33 +08:00
    malusama
        1
    malusama  
       2020-06-02 12:22:17 +08:00
    千万啥机器不能跑...
    你写入咋那么慢... 批量写入一次写更多条效率更高吧...测试一般都是一次插入一万条..
    dlsflh
        2
    dlsflh  
       2020-06-02 12:23:33 +08:00 via Android
    我完全外行,请教一下为啥不用 pandas 呢?
    yeqizhang
        3
    yeqizhang  
       2020-06-02 12:24:40 +08:00 via Android
    navicat 不是也可以导入吗
    tomczhen
        4
    tomczhen  
       2020-06-02 12:27:33 +08:00
    excel 另存 cvs,然后 LOAD DATA INFILE
    dexterzzz
        5
    dexterzzz  
       2020-06-02 12:30:44 +08:00 via Android
    8g 内存,power bi 亿级数据多表关联计算
    phx1
        6
    phx1  
       2020-06-02 13:07:13 +08:00
    为啥你的写入这么慢
    liprais
        7
    liprais  
       2020-06-02 13:13:32 +08:00
    16 核心 64g 内存足够了,用 pyspark 或者 pandas
    wyfbest
        8
    wyfbest  
       2020-06-02 13:13:42 +08:00
    excel 用 python 导入有很多现成工具吧
    micean
        9
    micean  
       2020-06-02 13:24:02 +08:00
    LOAD DATA INFILE '你的 csv 文件路径' IGNORE
    INTO TABLE 表名
    FIELDS TERMINATED BY '分隔符'
    LINES TERMINATED BY '换行符'
    yida1313
        10
    yida1313  
    OP
       2020-06-02 13:29:46 +08:00
    @malusama 分别打点测了下各个环节的运行时间,发现主要慢在数据库 insert 操作上,读 Excel 基本几秒就完事了。
    我试试你说的这个方法,一次写入 1000 条先试试。。。
    yida1313
        11
    yida1313  
    OP
       2020-06-02 14:49:16 +08:00
    @malusama
    改了下代码,测试了几次,发现我现在用的台式机一次插入 500 条比较快。
    现在目测 2 小时就能全部插入完。。。。感谢指导~
    jakson
        12
    jakson  
       2020-06-02 14:52:33 +08:00
    @yida1313 按照 micean 的方法就行,参考一下这篇文章吧,会快很多
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5363 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 08:20 · PVG 16:20 · LAX 00:20 · JFK 03:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.