V2EX › zizek 的所有回复 › 第 1 页 / 共 1 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

22 天前

回复了 BlackHole1 创建的主题 › 分享创造 › [开源] 扫描件 PDF 转 Markdown / EPUB，自动修复 OCR 错误

初步用了一下 pdf-craft 的本地模型功能，发现它是把矢量 pdf 文档当成图片，重新 OCR 之后形成的文本。
请教一下，有这样一个需求，能用 pdf-craft 实现吗？
完全是矢量化的 pdf 文档，已经不需要识别了。只需要内容提取出来，生成 epub 。

其实现在 calibre 能够完成这样的转化，但缺点是，跨页的段落不能合并成一段，这样一句话就会被放在两个段落里。pdf-craft 似乎能够很好地合并段落，保持句子的完整性。
如果提供“直接处理矢量 pdf"的选项，那就能节省很多时间。不知是否可能？