我说的技术流程例如:先把 html 弄下来---转为---->A 格式---转为---->word
1
hahahahaha234 2023-06-30 09:56:20 +08:00
1. html 里面如果有 iframe 什么的,用 singFile 搞一下做成单文件 html
2. html 里面的图片什么的处理一下,换成 svg 的 3. new blob mss/word 形式的 4. 转换出来效果可能不是太好,需要对某些不好的地方单独处理样式 |
2
zhanggg 2023-06-30 10:05:59 +08:00 1
http://www.rfc.ac.cn/html/rfc2246.html 这个叫网页
https://js1k.com/2012-love/demo/1100 这个也叫网页 这两个网页转 word 的难度可不是一般大 |
3
c2const 2023-06-30 10:18:05 +08:00
https://qu.ai/ 如果是这种炫酷网页, 阁下又将如何应对? :)
|
4
coolair 2023-06-30 10:19:59 +08:00
最快、最简单、效果最好的办法就是,网页截个图,然后插到 word 里,边距设置为 0 ,搞定。
|
5
opengps 2023-06-30 10:20:05 +08:00
打开网页,Ctrl+A ,Ctrl+C
打开 word ,Ctrl+V |
6
Ashore 2023-06-30 10:26:49 +08:00
截图后在 word 里插入图片
|
7
rming 2023-06-30 10:29:29 +08:00
https://pandoc.org/
https://superuser.com/questions/818127/how-to-convert-html-to-doc-docx-with-openoffice-or-libreoffice 之前搞过,效果不是很好 有个比较好的思路,就是先截图,然后用 OCR 还原排版,技术基本上是公开的 |
8
ccraohng 2023-06-30 10:29:31 +08:00
无头浏览器 pdf -> word
|
9
zackzergzeng 2023-06-30 10:39:13 +08:00
我是手动写的,我写的业务是将富文本编辑器中的 dom 结构转为 word 文档,富文本编辑器中的 dom 结构相对固定,使用的 tag 标签种类比较少,可以有穷举例解析,在用生成 word 的工具(我是用的是 js 的 docx 库)根据解析的结果生成 word
不知道对你有没有帮助 |
10
HUZHUANGZHUANG OP @zackzergzeng
首先,非常感谢大家热心的回复,有些回复有用,有些没用,不过没关系,是我的问题,第一次提问问题没有描述清楚. 1 我针对的网页主要是内容网页,比如知乎,新闻网站这类型的.炫酷帅极能炸天的网页不是我的目标 2 大家说用 OCR 无头浏览器这类技术,我试过,但是和我想要的实现方案有一定的差距,我想通过操作网页 DOM 元素来获取网页内容.这样大部分网页我们都可以获取内容 3 我主要是看到 CKEditor5 富文本编辑器有插件可以直接把内容导出为 word,主要是导出后格式还不会变形,所以我想知道这类技术大概是怎么实现的? 4 感谢热心人们的回复,感谢 |
11
HUZHUANGZHUANG OP @zackzergzeng 感谢回复,您的答案让我有启发,谢谢
|
12
villivateur 2023-06-30 14:44:43 +08:00
网页保存为 PDF ,然后再用 word 打开。
虽然只能应付简单的网页罢了 |