只是改了一行代码爬虫的效率就低了几十倍求解 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3096 天前的主题，其中的信息可能已经有所发展或是发生改变。

上略： s = k.decode("unicode_escape") ll = re.findall('(.aaaa.)',s ) 下略：在标题中寻找特定的英文字段一个大约跑 12s 一个循环 40 个循环大约 8 分钟分钟左右上略： s = str(k.decode("unicode_escape")) ll = re.findall('(.汉字 XXX.)', s) 下略：在标题中寻找特定的中文字段第一个循环 10s 左右越往后越慢到最后一个循环是 200s 10 个循环大约有半个小时我想知道的是为嘛寻找英文和寻找中文的时间差距这么大其他代码完全一样服务器也是同一台机器

4 条回复 • 2016-09-01 08:12:18 +08:00

1

huntzhan

2016-08-31 21:47:48 +08:00

我猜是你 regex 写得太烂导致的, 你看下是否存在 catastrophic backtracking.

2

soulmine

OP

2016-08-31 21:50:20 +08:00

@huntzhan 呃这个怎么看.....

3

Tyanboot

2016-08-31 22:52:56 +08:00

也许是因为汉字占两个字节?然后匹配的时间暴增?

4

chenqh

2016-09-01 08:12:18 +08:00

你确定正则能这样用中文吗？我记得应该不行吧。。

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 2945 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 22ms · UTC 08:36 · PVG 16:36 · LAX 00:36 · JFK 03:36
Developed with CodeLauncher
♥ Do have faith in what you're doing.