V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  mcutown  ›  全部回复第 1 页 / 共 1 页
回复总数  14
17 小时 12 分钟前
回复了 mcutown 创建的主题 分享创造 向大家推荐为潜心打磨近 8 个月的 AI 文档翻译网站
@imeilige 图片及非 PDF 文件翻译的问题已修复

![image]( https://d3009u2ha5h4s8.cloudfront.net/20250418165208_img1.png)
22 小时 26 分钟前
回复了 mcutown 创建的主题 分享创造 向大家推荐为潜心打磨近 8 个月的 AI 文档翻译网站
@Sirius8 收到,感谢反馈
23 小时 4 分钟前
回复了 mcutown 创建的主题 分享创造 向大家推荐为潜心打磨近 8 个月的 AI 文档翻译网站
@imeilige 稍等兄弟。图片翻译的还有个小坑,正在修复中~
23 小时 46 分钟前
回复了 mcutown 创建的主题 分享创造 向大家推荐为潜心打磨近 8 个月的 AI 文档翻译网站
@hafuhafu 感谢反馈和认可。邮箱登陆的问题我排查一下
@thorby 又发了一波兑换码,兄弟有兴趣可以领一波试用对比一下哈。我对自己的产品有信心
@lovestudykid 这个项目非常优秀,但个人觉得我的产品在一些的非论文的特殊文档格式的处理上可能还是领先一丢丢,因为在这块花了非常多的心思去对比优化。
@imjiaoyuan
6801ab90bd05dd32d13e04d2
6801ab90bd05dd32d190d3c6
6801ab90bd05dd32d1664a4e
6801ab90bd05dd32d14069fd
6801ab90bd05dd32d11b5342
6801ab90bd05dd32d1d7eaf1
6801ab90bd05dd32d17fce49
6801ab90bd05dd32d1c0b681
6801ab90bd05dd32d19c0e75
6801ab90bd05dd32d11afb18
6801ab90bd05dd32d19354fe
6801ab90bd05dd32d12c6d2d
6801ab90bd05dd32d11ae5a6
6801ab90bd05dd32d10bc814
6801ab90bd05dd32d15af90d
6801ab90bd05dd32d1d65e4b
6801ab90bd05dd32d1ad4b9e
6801ab90bd05dd32d18950e9
6801ab90bd05dd32d1164a90
6801ab90bd05dd32d14c0f4f
@imjiaoyuan 我刚才看有个兄弟把码全绑了,我明天再发一波给兄弟们
统一回复楼上各位。

目前市面上 PDF 内容结构化做的比较好的除了 markitdown 外,还有 Mineru 、docling 。以上这些项目因为工作关系,我都有比较深入的体验,对比我这里贴出的小工具来说,工程化的项目可能在某些场景下无疑更具有稳定性。

但我个人觉得,对于非深度或者非工程化人员,轻量脚本级的应用在使用上应该是更加灵活的

但是,这些工具都存在一个不可能三角,即效率、成本、质量,任何一个产品都无法同时具备;如果有需要,我可以单开一个帖子对以上 PDF 内容结构化项目进行综合评测
@2han9wen71an
因为目前的处理逻辑是对可能为文章插图的内容进行智能识别并以占位符替代。这样方便后续对附图使用 pymupdf 提取后并插入还原
@2han9wen71an
用这个呢,额度 200 页
b22b6a4bb7df446a9efb48c54321861e
@windamin 实测下来,用 gemini2.0flash 6000 页的成本约 5 刀左右,gemini2.5pro 的话价格应该在 10 倍
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2762 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 02:06 · PVG 10:06 · LAX 19:06 · JFK 22:06
Developed with CodeLauncher
♥ Do have faith in what you're doing.