1
mirrornighth 111 天前
可行的
|
2
ruanimal 111 天前
有的 word 文档 的排版样式非常复杂,程序排版效果不一定好
如果只有这么多文档,多找点人人力搞一下? |
3
Ib7WF3828E1C0W09 111 天前
可行的
|
4
ghwolf007 OP |
6
DsuineGP 110 天前
如果这些文档是由同一个文档模版创建的, 那么可行; 否则, 不可行
1, 无法准确识别文章某一个段落的格式类型, docx 文档中不存在「标题」「正文」...只有「样式表」, 换句话说, 所有的标题和正文的格式只是「样式表」中的某一个样式的命名.你没法保证每一个文档中样式表的命名都是「标题」「正文」.只能根据 fontSize==16 或者 bold==true 这样的条件去判断, 但是每一个文档中样式都略有区别. 2. 从 doc 转到 docx 之后, 形状、图片元素可能被转置成 VML 而非 OOXML 通用的 DML, 虽然没看 python-docx 代码, 但是大概率是不支持的 |
7
ghwolf007 OP @DsuineGP #6 感谢大佬 非常专业!!!
1.目前这些文档确实来源五花八门 提交的时候又强制要求转为 doc 来提交 最终修改完还是要转为 doc 所以处理起来很麻烦; 2. python-docx 应该是不支持 VML 的,就是不知道能不能局部修改,只改标题、正文文本、目录、页码这些。 |