做一个 pdf 对照翻译的功能 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

关于交易安全的提示

这是一个创建于 440 天前的主题，其中的信息可能已经有所发展或是发生改变。

类似沉浸式翻译，pdfjs 解析 pdf 文件，调用翻译接口生成对照翻译的排版。价格详单独细谈吧。

9 条回复 • 2024-01-03 20:21:52 +08:00

1

csulyb

2023-12-26 10:33:10 +08:00

先把 pdf 和翻译整明白了再来发需求吧

先不说翻译接口 api 如何处理这种大段落的翻译，pdfjs 加载一个 100M 的 pdf 文件会不会卡死。

pdf 只是版式协议，并不知道语义，自己要处理文字合并和分割，还有翻译前后排版长短不一致，字体问题等都够喝一壶了
其他 pdf 协议内各种版本兼容，随时给你来个失败

2

zhwq

2023-12-26 10:53:18 +08:00

@csulyb 最后来个报价 300 ，最多 500

3

sinecw

OP

2023-12-26 11:09:27 +08:00

@csulyb 我知道难度挺大主要是排版还原上需要做算法处理来判断段落和样式的还原所以我才在这里发帖这个东西没有更详细的需求标题已经写的够清晰了我自己写过一些代码能力不足确实没搞定您如果有兴趣接这个需求咱可以详细讨论一下

4

sinecw

OP

2023-12-26 11:09:44 +08:00

@zhwq 大哥看出来你技术牛了别加戏了

5

UkDP86IAeTHJr9p3

2023-12-27 13:18:15 +08:00 via Android

5000 个 w, 我来给你做

6

sinecw

OP

2023-12-27 16:14:29 +08:00

希望感兴趣的技术大牛们能联系～

7

nesserrary66

2023-12-28 13:19:10 +08:00

pdf api 可以获取文本，但图片和表格多半要用 ocr 处理，处理后再封装回 pdf 。
本人正在尝试复刻百度的图片翻译，下面是效果图，初期版本与百度的还是有差距

8

sltkzbw

2023-12-31 16:15:48 +08:00

@sinecw 分场景吧
1 、PDF 可解析+版式固定，可以抽文字坐标硬写规则
2 、PDF 不可解析+版式固定，自己标点数据训个检测+白嫖个识别，再硬写规则
3 、任意版式，这个比较难，我了解都是针对特定版式优化的，可能得等到 OCR 的 GPT4 出来了

9

rickmotiyu1

2024-01-03 20:21:52 +08:00

如果是固定的标准的 pdf 格式可以做

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 5898 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 30ms · UTC 02:54 · PVG 10:54 · LAX 19:54 · JFK 22:54
Developed with CodeLauncher
♥ Do have faith in what you're doing.