1
mrytsr 2014-10-04 19:09:44 +08:00 via Android
Scrapy
|
2
mhycy 2014-10-04 19:17:18 +08:00 1
手写....
Requests + re + threading + logging 各种爽~ PS.其实是觉得框架太不灵活了 |
3
paulw54jrn 2014-10-04 20:22:04 +08:00 1
不是很复杂就是楼上说的
requests + re + threading/greenlets 或者是楼上上说的 Scrapy.. |
4
ShiehShieh 2014-10-04 20:37:56 +08:00
有没有什么好点的材料能学习嘛? 0.0
|
5
binux 2014-10-04 20:42:33 +08:00 2
|
7
XadillaX 2014-10-04 21:40:50 +08:00
-。 - 为什么没多少人学 node 做爬虫呢?
|
8
chemzqm 2014-10-04 22:44:35 +08:00 1
node异步回调太恶心,占用内存太高,低配机器跑不了几个进程
|
9
GeekGao 2014-10-04 23:13:37 +08:00 1
曾经用twisted自己写过一个,后来才知道有scrapy这个爬虫框架,推荐scrapy
|
10
Codist 2014-10-04 23:35:52 +08:00 1
scrapy简单又方便,selector用起来也很舒服,不用写正则了
|
11
kenis 2014-10-05 02:54:57 +08:00 1
推荐用Scrapy,比较成熟的爬虫框架,资源也不少。
|
12
zqhong 2014-10-05 06:12:50 +08:00 1
|
13
briefcopy 2014-10-05 09:38:11 +08:00 1
WebCollector:
http://www.brieftools.info/document/webcollector/ |
14
imn1 2014-10-05 10:40:13 +08:00 1
我抓取的量很大,所以分离过程用wget抓取,py做parse,95%用正则,少量用 lxml+xpath
无论用什么,通读http协议+抓包工具是跑不掉的 |
15
ericls 2014-10-05 14:07:54 +08:00 via Android 1
requests pyquery
|
16
helloworld00 2014-10-05 18:24:36 +08:00 1
|