需求是这样的,从某些资料库中同步了大约 140 TB 的电子书,混合了 pdf, mobi, txt, html, epub, ps 等格式。但是由于来源有一部分是重叠的,同时又有很多资料有不同年代创建的不同版本,所以:
一方面需要像 calibre 一样能够自动读取 metadata 并且能实时转换格式,并且能根据标题和 metadata 检索,另一方面需要像 libgen 一样维护一个哈希数据库来去重(这个功能实在没有的话我们也可以自己实现,所以不是必须的)。另外,需要能够进行随机读取,因为有一些服务器在不停跑 OCR, elastic search 和一套我们自己开发的 IR 系统。
因为数据量稍微有一些大,目前是存储在很多台服务器上,并且有一台磁带机进行增量备份,所以最好有分布式的实现,具体是什么协议倒是都没问题,其它配合部分我们可以自己开发。
目前我们使用的是一套自己搭建的简易系统,但是现在数据规模正在越来越膨胀,估计将来大约会有 400 TB 左右的数据量。对于这么多的资料目前用的一些桌面级的管理软件光运行就很吃力,但是这些软件又都不怎么支持分布式处理,所以想问一下各位是否知道什么能够在分布式的文件系统上管理电子资料的开源或商业软件?
1
il OP 新号发帖果然都会被直接放到 4 小时前 :doge:
顺便问一下有什么对于老旧的扫描版中英文资料 OCR 效果较好的软件吗。。发现尝试的软件对那种黑白的压缩过的文档都有些无力😂 |
2
Kirscheis 2017-04-08 23:58:49 +08:00
惊了,以为是我发的贴。。
数据量大了之后真的麻烦。。我也没找到什么好的解决方法,只仿照 libgen 做了一个去重数据库 |
3
temberature 2019-10-09 10:12:45 +08:00
@il 可以试试 https://cloud.google.com/vision/?hl=zh-cn#vision-api- 已知最好的效果了。除了 calibre,https://github.com/RD17/ambar 已知最接近的系统了。可以的话,也希望能分享下你们现在的方案。
|