V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
elevioux
V2EX  ›  问与答

有办法将 pdf 转成 markdown 吗?

  •  
  •   elevioux · 2023-08-25 09:18:48 +08:00 · 2472 次点击
    这是一个创建于 454 天前的主题,其中的信息可能已经有所发展或是发生改变。

    试了下网上的几个工具,结果出来都不太理想。

    pdf 都是一些产品说明介绍,有各种图表图片等,排版复杂没有规律。

    想着能不能把产品 pdf 的主要内容,表格之类的转成 markdown ,方便后续 embedding 喂给 chatgpt 。

    又或者 pdf to markdown 这一步需要单独训练个 AI 出来?如何开始,大家有思路吗?

    19 条回复    2023-08-25 16:49:57 +08:00
    me221
        1
    me221  
       2023-08-25 09:19:39 +08:00
    pdf 可以直接 embedding 给 ChatGPT 呀
    SWALLOWW
        2
    SWALLOWW  
       2023-08-25 09:29:16 +08:00
    @me221 怎么嵌入啊,怎么给文件,图片这些信息啊
    elevioux
        3
    elevioux  
    OP
       2023-08-25 09:29:25 +08:00
    @me221 如果我理解没问题的话,embedding 本身只是用于语义搜索,搜索出来的结果必须要有对应的原文本才好给到 chatgpt 处理。如果 pdf 转 markdown 不理想的话,chatgpt 拿到文本也是很难理解。还是我思路有问题?望指教
    fzls
        4
    fzls  
       2023-08-25 09:31:54 +08:00
    @elevioux #3 下面这个网站可以直接喂 pdf

    https://www.chatpdf.com/
    yekern
        5
    yekern  
       2023-08-25 09:31:56 +08:00
    pdf 转 html 转 markdown 不可以么
    elevioux
        6
    elevioux  
    OP
       2023-08-25 09:39:28 +08:00
    @fzls 知道有这个网站,试了一下,有些问题还是回答不了,说文本没有提到。。。。
    elevioux
        7
    elevioux  
    OP
       2023-08-25 09:41:28 +08:00
    @yekern 有想到过,也试过,还是表格形式的数据难以转换。pdf 的排版太没规律了,我们人眼看起来是个表格,转成 html ,就成了各种 div 的拼凑。
    c2const
        8
    c2const  
       2023-08-25 09:55:21 +08:00
    1.PDF 包含的信息太多了,比如嵌入私有字体都可以,想保留格式转化没啥好办法 :(
    2.可以直接把所有 PDF 打印成高质量图片,markdown 贴图 :)
    3.精细一点,可以把简单格式的文字转 markdwon ,不方便转表格图片其它格式就用图片,但是不知道有没有现成的自动化程序 :(
    gitignore
        9
    gitignore  
       2023-08-25 09:59:56 +08:00   ❤️ 1
    找个大学生帮你手工转
    me221
        10
    me221  
       2023-08-25 10:08:10 +08:00   ❤️ 1
    @elevioux #3 你的思路没问题。是我没考虑 PDF 中的图片问题,可以用 OCR 把 PDF 转为 Docx 格式,然后 embedding
    elevioux
        11
    elevioux  
    OP
       2023-08-25 10:13:51 +08:00
    @c2const 其实并不是想要用 markdown 来还原 pdf ,只是用 markdown 来保留 pdf 的关键信息和表格,方便 chatgpt 理解。
    elevioux
        12
    elevioux  
    OP
       2023-08-25 10:25:21 +08:00
    @me221 试过百度的 padddle ,错别字有点多( pdf 主要是繁体),当然也可能是我其它参数没设置好。目前主要想法是自己训练一个 AI 来识别文档的内容,如标记哪里是表格,哪里是大段文字等,再用 pymupdf 等提取文字再合成 markdown 。不过苦于对 AI 不熟悉,用 pytorch 写了个 demo 就没有然后了,不知如何开始。
    YGHMXFAL
        13
    YGHMXFAL  
       2023-08-25 12:10:20 +08:00   ❤️ 1
    PANDOC 看看行不行
    amlee
        14
    amlee  
       2023-08-25 12:53:28 +08:00   ❤️ 1
    YGHMXFAL
        15
    YGHMXFAL  
       2023-08-25 14:22:34 +08:00
    看了一下,PANDOC 好像不行,InPut 格式不支持 PDF,不符合楼主需求
    iX8NEGGn
        16
    iX8NEGGn  
       2023-08-25 15:03:10 +08:00 via iPhone   ❤️ 2
    用 Abbyy Finereader 先转换成 docx ,然后再转换成 md
    noahhhh
        17
    noahhhh  
       2023-08-25 15:14:04 +08:00 via Android
    pandagpt ,直接用能导入 PDF 的工具不好吗
    elevioux
        18
    elevioux  
    OP
       2023-08-25 16:09:28 +08:00
    @iX8NEGGn 感谢提供思路。试了用 acrobat 转成 docx ,再用 pandoc 转成 markdown ,是目前效果最好的。
    iX8NEGGn
        19
    iX8NEGGn  
       2023-08-25 16:49:57 +08:00 via iPhone
    @elevioux 用 Abbyy 效果还可以更好,会自动分析哪些是图片哪些是表格,也可以手动框选哪些是图片哪些是表格,Acrobat 也有用 Abbyy 家的技术。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1010 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 22:21 · PVG 06:21 · LAX 14:21 · JFK 17:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.