V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
NeilMaster
V2EX  ›  程序员

想问一道 Java 面试题,关于数据处理

  •  
  •   NeilMaster · 2022-11-19 19:57:08 +08:00 · 2809 次点击
    这是一个创建于 763 天前的主题,其中的信息可能已经有所发展或是发生改变。

    具体的题目内容是: 有 1TB 的数据,一秒钟只能处理 1MB ,问如何 10 内处理完

    求助,各位大佬。谢谢啦

    16 条回复    2022-11-21 14:22:25 +08:00
    NeilMaster
        1
    NeilMaster  
    OP
       2022-11-19 19:58:57 +08:00
    第一次用 V2EX ,少打了一个,要求是 10 秒内处理完这个大数据文件
    dqzcwxb
        2
    dqzcwxb  
       2022-11-19 20:54:13 +08:00
    104857.6 个线程并行
    v2eb
        3
    v2eb  
       2022-11-19 22:02:54 +08:00 via Android
    比我移动硬盘复制快
    ruanimal
        4
    ruanimal  
       2022-11-19 22:08:55 +08:00
    什么硬盘 1s 能读 100G ?
    cdlnls
        5
    cdlnls  
       2022-11-19 22:13:01 +08:00
    如果这个处理指的是”删除文件“,并且一秒只能删除 1MB

    所以 格式化磁盘 / 删除分区,10 秒应该够了:)
    liangkang1436
        6
    liangkang1436  
       2022-11-19 23:06:20 +08:00 via Android
    10s 处理 1TB 的数据?我想问问现在有什么硬件架构能做到这一点
    kkkkkrua
        7
    kkkkkrua  
       2022-11-19 23:10:30 +08:00
    确定是面试官说清楚了吗?
    你反问他,一秒钟吃 1 粒米,怎么在 10 秒吃完一桶饭
    EarthChild
        8
    EarthChild  
       2022-11-19 23:31:01 +08:00
    @kkkkkrua 哈哈哈把他头砍了,往里倒
    knightdf
        9
    knightdf  
       2022-11-20 00:12:32 +08:00
    这问题跟 java 没关系吧,我把 1TB 数据分成 N 份 1MB 数据然后用 N 个机器 1 秒就能处理完,沙雕问题
    NeilMaster
        10
    NeilMaster  
    OP
       2022-11-20 07:46:42 +08:00
    @kkkkkrua 哈哈,我在准备一家公司面试,我在网上找到往期的面试题目。 我也是对这个题目很疑惑才来求问的, 目前来说很多人的建议就是开多个线程并行解决问题。
    NeilMaster
        11
    NeilMaster  
    OP
       2022-11-20 07:47:41 +08:00
    @ruanimal 要走内存吧。我觉得
    NeilMaster
        12
    NeilMaster  
    OP
       2022-11-20 07:48:34 +08:00
    @liangkang1436 我也不懂。。
    mortalbibo
        13
    mortalbibo  
       2022-11-20 09:07:04 +08:00
    大规模分布式处理呗, 又没说限制机器数量[doge]
    NeilMaster
        14
    NeilMaster  
    OP
       2022-11-20 10:15:37 +08:00
    @mortalbibo 嗯,谢谢指导,因该就是分布式处理
    blankmiss
        15
    blankmiss  
       2022-11-20 17:52:35 +08:00
    @knightdf 那硬盘不会卡 io 吗
    dog82
        16
    dog82  
       2022-11-21 11:32:17 +08:00
    脑残问题,就是空间换时间,哪有那么多玄学
    bthulu
        17
    bthulu  
       2022-11-21 14:22:25 +08:00
    数据跟数据之间是互相独立的, 不用管前后因果关系的吗? 那就简单了, 阿里云临时申请 100 台 128 核心的按量付费的机器, 再建一条 100GB/S 的光纤专线到阿里机房, 把这 1TB 数据拆成 100 分发到这 100 台机器上处理就好了.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2711 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 11:35 · PVG 19:35 · LAX 03:35 · JFK 06:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.