1
menc 2016-10-23 20:30:32 +08:00
使用容错性高的 html parser ,但是这个问题我记得 bs4 是可以解决的
|
2
MinonHeart 2016-10-23 20:56:12 +08:00
把标签写正确🙃
|
3
binux 2016-10-23 21:00:52 +08:00
lxml.html, html5parser
|
5
menc 2016-10-23 22:02:52 +08:00
|
6
mhycy 2016-10-23 22:07:09 +08:00
碰上这种页面直接上正则表达式解决
|
7
binux 2016-10-23 22:23:29 +08:00
@menc
In [1]: import lxml.html In [2]: dom = lxml.html.fromstring(u'<a target="_blank" href="http://wenda.eask.org/"><b>我要提问</a></b>') In [3]: print lxml.html.tostring(dom, encoding="unicode") <a target="_blank" href="http://wenda.eask.org/"><b>我要提问</b></a> |
11
firemiles 2016-10-24 00:09:25 +08:00 via Android
只识别标签头,任意结束标签当当前起始标签的结束,这么干就随意交叉,只要头的顺序对就行
|
12
jaimezhan 2016-10-24 11:02:08 +08:00
写代码不严谨 或者使用编辑器的插件 自动补充关闭标签减少类似的错误代码
|