网上搜了一圈没有找到合适,做下伸手党。 爬虫得到的是 html 内容,带大量各类标签及 css,id 等 attr 内容, 想通过一个库之间输出干净的 html 只保留简单的 p br img 等标签,谢谢大家
1
fan2006 2019-01-03 11:38:05 +08:00
用过 lxml 和 beautifulsoup4.
|
2
boom7 2019-01-03 11:38:38 +08:00
lxml.html.clean 试一下?
|
3
JackeyGao 2019-01-03 11:49:02 +08:00
不确定这个可以不可以, 试试看吧。 https://github.com/kennethreitz/requests-html
|
4
lihongjie0209 2019-01-03 11:51:24 +08:00
不就是 dom 树的 变量
|
5
lihongjie0209 2019-01-03 11:53:55 +08:00
变量 -> 遍历
|
6
ivechan 2019-01-03 12:30:35 +08:00
|
7
poorcai 2019-01-03 12:34:52 +08:00 via iPhone
搭车问 小程序 中有没有好用的?搜了下只有 wxParse ?而且得不到有用的信息
|
8
villivateur 2019-01-03 12:56:27 +08:00 via Android
Beautiful Soup
|
9
tabris17 2019-01-03 12:59:41 +08:00
就说一个,pyquery 有坑,其他如何不清楚
|
10
Huelse 2019-01-03 13:05:48 +08:00
beautifulsoup4 容易点
|
11
huluhulu 2019-01-03 13:09:32 +08:00 via iPhone
Beautiful Soup 很好用
|
12
WeaponXu 2019-01-03 16:57:07 +08:00
bs4 啊
|
13
heiybb 2019-01-03 17:05:04 +08:00 via Android
居然没人说 pyquery 嘛
|
14
Olorin 2019-01-03 18:09:38 +08:00
beautifulsoup4
|