如何优雅的实现正则提取

比如我要去百度首页的title，这是目前的写法

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Created on 2015/4/12

import re
import requests

title_re=re.compile(r'<title>(.*?)</title>')
r=requests.get('http://www.baidu.com')
title=title_re.search(r.content).group(1)
print title

有没有更优雅的正则实现方式？

title

import

utf

14 条回复 • 2015-04-12 21:16:36 +08:00

Septembers

2015-04-12 12:59:48 +08:00 via Android

re.search(r'<title>(.*?)</title>', r.content)

leyle

2015-04-12 13:01:26 +08:00

我喜欢使用 findall()

hahastudio

2015-04-12 13:08:30 +08:00

beautifulsoup？
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
或者 lxml？
http://docs.python-guide.org/en/latest/scenarios/scrape/

gyorou

2015-04-12 13:55:24 +08:00

or why not mechanize
http://wwwsearch.sourceforge.net/mechanize/

046569

2015-04-12 13:58:20 +08:00

解析HTML结构,而不是使用正则提取.

mornlight

2015-04-12 14:56:39 +08:00

零宽断言：
(?<=\<title\>)[\s\S]*?(?=\</title\>)

wdhwg001

2015-04-12 17:31:49 +08:00 via iPhone

@mornlight 不能这样判断，你还要判断title里有没有属性。
另外title是少数几个可以用正则处理的html标签，因为它没有嵌套，而正文是不可能用正则的，除非使用平衡组（js等的正则不支持平衡组，而C#支持）…

ghovik

2015-04-12 17:42:03 +08:00

这个文风的标题不应该出现在知乎上麽~~

silvernoo

2015-04-12 17:43:03 +08:00

为什么不用XPath

ETiV

2015-04-12 17:59:38 +08:00

这问题就好比:

如何优雅的直接用手去擦屁股

frankzeng

2015-04-12 21:01:34 +08:00 via Android

干嘛用正则表达式？费力又不讨好，像楼上说的用手擦砒屁股，什么姿势都恶心

mengzhuo

2015-04-12 21:07:15 +08:00

同意@ETiV
不过文艺点的说法是：
结构化文档请用解析器

dingyaguang117

2015-04-12 21:08:18 +08:00

xpath +1

jimmy66

2015-04-12 21:16:36 +08:00

title=re.search(r'<title>(.*)</title>',r).group(1)
可以一句话写完的，短即优雅。
正文用正则也不是不可能，用跨行正则取出对应的代码段，然后<.*?>replace掉标签就可以了
当然这么做很蛋疼，还是推荐用 lxml，pyquery ，beautiful soup 这种，用熟了，用于xml解析也会有很大帮助
最后求不用知乎体....