1
rankjie 2013-02-23 11:31:30 +08:00 via iPad
|
2
Mutoo 2013-02-23 11:37:31 +08:00 1
@rankjie 解析url和解析html根本是两回事嘛
lz可以参考一些现成的regex http://regexlib.com/DisplayPatterns.aspx?cattabindex=1&categoryId=2&AspxAutoDetectCookieSupport=1 或者根据w3c对uri的定义自己构造(参考第50页) http://www.ietf.org/rfc/rfc3986.txt |
3
rankjie 2013-02-23 12:04:24 +08:00 via iPhone
@Mutoo 我看楼主的匹配里面有个</a>,看起来似乎就是在解析html,我不会正则啊=_=说错了还请指正
|
4
CoX 2013-02-23 13:46:00 +08:00
lz可以试试tornado.escape.linkify
它的正则写的复杂点: _URL_RE = re.compile(ur"""\b((?:([\w-]+):(/{1,3})|www[.])(?:(?:(?:[^\s&()]|&|")*(?:[^!"#$%&'()*+,.:;<=>?@\[\]^`{|}~\s]))|(?:\((?:[^\s&()]|&|")*\)))+)""") |