V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
il
V2EX  ›  问与答

请问是否存在能够在分布式的文件系统上管理电子资料的开源或商业软件 (类似 Calibre) ?

  •  
  •   il · 2017-04-08 23:48:01 +08:00 · 1939 次点击
    这是一个创建于 2771 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求是这样的,从某些资料库中同步了大约 140 TB 的电子书,混合了 pdf, mobi, txt, html, epub, ps 等格式。但是由于来源有一部分是重叠的,同时又有很多资料有不同年代创建的不同版本,所以:

    一方面需要像 calibre 一样能够自动读取 metadata 并且能实时转换格式,并且能根据标题和 metadata 检索,另一方面需要像 libgen 一样维护一个哈希数据库来去重(这个功能实在没有的话我们也可以自己实现,所以不是必须的)。另外,需要能够进行随机读取,因为有一些服务器在不停跑 OCR, elastic search 和一套我们自己开发的 IR 系统。

    因为数据量稍微有一些大,目前是存储在很多台服务器上,并且有一台磁带机进行增量备份,所以最好有分布式的实现,具体是什么协议倒是都没问题,其它配合部分我们可以自己开发。

    目前我们使用的是一套自己搭建的简易系统,但是现在数据规模正在越来越膨胀,估计将来大约会有 400 TB 左右的数据量。对于这么多的资料目前用的一些桌面级的管理软件光运行就很吃力,但是这些软件又都不怎么支持分布式处理,所以想问一下各位是否知道什么能够在分布式的文件系统上管理电子资料的开源或商业软件?

    3 条回复    2019-10-09 10:12:45 +08:00
    il
        1
    il  
    OP
       2017-04-08 23:55:46 +08:00
    新号发帖果然都会被直接放到 4 小时前 :doge:
    顺便问一下有什么对于老旧的扫描版中英文资料 OCR 效果较好的软件吗。。发现尝试的软件对那种黑白的压缩过的文档都有些无力😂
    Kirscheis
        2
    Kirscheis  
       2017-04-08 23:58:49 +08:00
    惊了,以为是我发的贴。。
    数据量大了之后真的麻烦。。我也没找到什么好的解决方法,只仿照 libgen 做了一个去重数据库
    temberature
        3
    temberature  
       2019-10-09 10:12:45 +08:00
    @il 可以试试 https://cloud.google.com/vision/?hl=zh-cn#vision-api- 已知最好的效果了。除了 calibre,https://github.com/RD17/ambar 已知最接近的系统了。可以的话,也希望能分享下你们现在的方案。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   982 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 22:07 · PVG 06:07 · LAX 14:07 · JFK 17:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.