一般扫描版 PDF 每一页都是一张图,并不是内嵌的文字.
现在遇到这类资料只能手动加书签,我知道abbyy
可以通过ocr
技术来编辑这类扫描版pdf
,所以想问哈是否有工具能够更进一步,利用ocr
识别结果自动构造书签目录?
1
imzcg2 2022-08-30 14:19:17 +08:00
我专门找过还真就没找到,一般都是取可靠网站拿取书的目录然后用软件做进去
|
2
ChaosesIb 2022-08-30 20:13:48 +08:00 via Android
ABBYY 就可以,也可以 OCR 后用 PDF-XChange Editor 通过样式提取书签。
|
3
a33291 OP 谢谢各位
目前应该都只能先转 word ,然后通过 word 生成目录,再转换为 pdf 。这些步骤都要手动完成,目前 ocr 识别效果最好的应该还是 abbyy ,一些 GB 文档的文字样式比较麻烦。 |