外包一个小活儿，需要将 word 的 docx 文档的文字识别出来。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1488 天前的主题，其中的信息可能已经有所发展或是发生改变。

要求：
用 Python
能把章节号也给识别出来，即
原来的格式有 1，1.2 之类的，转换出来的文字也要有。

9 条回复 • 2021-08-03 11:22:03 +08:00

musi

2021-03-06 20:04:08 +08:00

怎么联系

gulumogu

2021-03-06 20:35:40 +08:00

联系方式发一下

ilucyx

2021-03-06 20:49:07 +08:00

@buptrobin 联系我 telegram `@lwbroxjq`

antpi

2021-03-06 21:51:44 +08:00

YW50eDIwMDYwMQ==

buptrobin

2021-03-07 07:16:32 +08:00

PDF 如果能准确率高的也行。
就是文字都能识别，而且，章节号也能识别出来，也能知道是章节号。

buptrobin

2021-03-07 07:17:20 +08:00

@gulumogu YnVwdHJvYmlu

buptrobin

2021-03-07 07:17:24 +08:00

@musi YnVwdHJvYmlu

bruceche11

2021-03-10 17:03:45 +08:00

还需要吗？

buptrobin

2021-08-03 11:22:03 +08:00

@bruceche11 需要 wx：YnVwdHJvYmlu