V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
idblife
V2EX  ›  问与答

有啥软件或者服务可以做 PDF 文件的 OCR?

  •  
  •   idblife · 2022-06-25 17:24:06 +08:00 · 2494 次点击
    这是一个创建于 880 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有很多扫描的老资料 PDF 想批量转换成文本方便检索
    19 条回复    2022-06-26 17:45:24 +08:00
    shyray
        1
    shyray  
       2022-06-25 17:30:44 +08:00 via iPhone   ❤️ 1
    DEVONthink
    Nasei
        2
    Nasei  
       2022-06-25 17:36:30 +08:00   ❤️ 1
    谷歌和微软都有 orc 的云服务 api

    https://cloud.google.com/vision/docs/pdf
    huandaeren
        3
    huandaeren  
       2022-06-25 18:35:21 +08:00 via iPhone   ❤️ 1
    OCRmyPDF
    em70
        4
    em70  
       2022-06-25 18:52:40 +08:00   ❤️ 1
    ABBYY FineReader
    俄罗斯人开发的神器,OCR 转换效果极好,淘宝几元钱就能买到,支持命令行可以批量操作,就是有点耗 CPU
    sunnysab
        5
    sunnysab  
       2022-06-25 19:53:41 +08:00 via Android
    我印象里 ABBYY 对古籍等印刷不是很清晰的书效果一般,也可能是因为我版本老。耗 CPU 是真的!

    我也来蹲一个。
    kokutou
        6
    kokutou  
       2022-06-25 20:22:50 +08:00
    ABBYY
    idblife
        7
    idblife  
    OP
       2022-06-25 20:40:14 +08:00
    @em70
    不知道是不是支持 api 调用,想写个程序把 pdf 批量转换成文本然后写入到 mysql 里。
    我去看看文档
    idblife
        8
    idblife  
    OP
       2022-06-25 20:41:25 +08:00
    @Nasei
    试用过 aws 的,对中文适配不太好
    idblife
        9
    idblife  
    OP
       2022-06-25 20:48:44 +08:00
    @em70
    看到你回复里写命令行操作了,哈哈,跳跃性阅读了
    KDr2
        10
    KDr2  
       2022-06-25 21:14:32 +08:00
    imydou
        11
    imydou  
       2022-06-25 21:27:52 +08:00 via iPhone
    anbyy finereader 有按月的订阅
    paopjian
        12
    paopjian  
       2022-06-25 22:27:44 +08:00
    pdf 转成图片再 ocr 不就行了,pymupdf pdf 转图片挺快得
    idblife
        13
    idblife  
    OP
       2022-06-25 23:44:53 +08:00 via iPhone
    @paopjian
    主要是 ocr 不好解决
    paopjian
        14
    paopjian  
       2022-06-25 23:50:16 +08:00   ❤️ 1
    @idblife 没懂 ocr 有啥不好解决的,我用的 paddleocr,配环境有点麻烦,配好了就是脚本跑了
    Features
        15
    Features  
       2022-06-26 00:26:25 +08:00
    阿里云,百度云 API 吧
    国内的头部厂家
    本地软件根本没法比
    shakoon
        16
    shakoon  
       2022-06-26 07:41:35 +08:00 via Android
    wps pdf ,开会员
    zhouwb
        17
    zhouwb  
       2022-06-26 08:42:19 +08:00
    这种免费的效果都不会太好,wps 会员应该是最便宜的方案
    nyaruko
        18
    nyaruko  
       2022-06-26 12:51:19 +08:00
    Word ? 2019 及之后还有 Office 365 应该可以直接打开 PDF 的,但不清楚楼主这个 PDF 是什么情况

    如果本身就能复制里面的文字应该可以直接转换成可编辑的 word 文档,如果里面是图片不好说

    以及企业版的 O365 可以直接通过 SharePoint 索引 PDF 内的内容
    idblife
        19
    idblife  
    OP
       2022-06-26 17:45:24 +08:00
    @nyaruko
    里面是图片的那种扫描文档
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1000 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 22:18 · PVG 06:18 · LAX 14:18 · JFK 17:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.