方案一: python 解析 docx 格式支持良好但对 doc 格式支持很差,故希望 doc 转为 docx 格式,有什么好办法? 方案二:将 doc 转为 html 格式,然后解析 html ,测试后发现如果数据量大了支持也不好 大家有什么好办法吗?
注:有近 1w 个*.doc 文档,每个文档 100Mz 左右
1
vicalloy 2016-10-21 14:44:24 +08:00
是需要提取 doc 里的内容?
https://github.com/dagwieers/unoconv 用这个可以将 doc 转成 html 或 docx 。 |
3
contractswif 2016-10-21 22:39:22 +08:00
py 通过 office 之类的软件打开 doc ,转换成 docx ,然后自由发挥。这样呢?
|
4
contractswif 2016-10-21 22:40:00 +08:00
之前转换了 2000 多个 doc 入 pdf 用的这种方式
|
5
xuboying 2016-10-22 14:59:26 +08:00 via iPhone
这种特殊需求还不如现学 VBA 三下五除二,别信 Python 的唯有唯一正确解的梦话。 Perler 说过黑猫白猫,都是好猫
|
6
zungmou 2016-11-01 09:26:10 +08:00 via iPhone
用 c#调用 office 接口操作 word 进行解析,应该很容易。
|