1
mhycy 2015-02-26 22:00:25 +08:00
爬的是哪个站?有多少资源可用?
|
2
iannil 2015-02-26 22:53:20 +08:00
可以参考我这个回复 http://v2ex.com/t/127220#reply5
|
3
laotaitai 2015-02-27 01:57:31 +08:00
直接外包给我吧. 不过哈, 一般情况下, 少于5W的项目我不接. 哥是专业的玩爬虫的. 我写过爬取全世界60%左右连了网的电脑, 一共收集了3亿的资源的. 对, 你没看错, 就是爬你们的电脑, 不是爬网站.
|
4
xiaobo 2015-02-27 02:18:37 +08:00 via iPhone
@laotaitai 请问如何做到的 个人电脑资料 难道是通过木马收集的 那全球60%的电脑 得多少,不科学啊
|
6
fising 2015-02-27 08:00:18 +08:00
3楼吹牛逼不打草稿
|
7
mrhuiyu 2015-02-27 08:28:00 +08:00
@laotaitai 话说···爬电脑?首先不礼貌的冒问一下···今天不是愚人节?额·····好吧那请问····假设电脑关机和非管理员用户登录电脑后无法访问指点盘符,那爬虫可以进去访问?
|
8
jedyu 2015-02-27 08:37:07 +08:00
3楼是爬IP吧?
|
9
mozutaba 2015-02-27 09:29:51 +08:00
3楼是爬ip的开放服务?
|
10
joshryo 2015-02-27 09:33:13 +08:00
3楼太谦虚了,居然还有40%连了网的电脑没爬。
|
11
xidianlz 2015-02-27 09:43:57 +08:00
3楼说的是扫描比较好吧 不算爬虫
|
12
xFan 2015-02-27 09:51:37 +08:00
3楼歪楼以后没人理楼主了...
你们赶紧正回来,. |
13
angerskon 2015-02-27 10:00:36 +08:00
3楼说的3亿的资源是指的3亿台电脑吗?照你说的60%来算,也就是说全球5亿左右的计算机联网。ipv4的地址一共42亿左右,除掉一些保留的,怎么也不止5亿吧。
|
14
thinkmore 2015-02-27 10:07:26 +08:00
3楼就是来骗回复的
|
15
crazycookie 2015-02-27 10:13:53 +08:00
楼上都被 3楼带歪了
其实有偿指导也是一件 比较 bug的事情 这种分布式我在做,确实 scrapy + redis 可以完成这些 我用linode跑的国外的站,4台服务器,还算稳定 |
16
binux 2015-02-27 10:34:02 +08:00 via Android
千万级别不算大型啊。。。
|
17
lucn 2015-02-27 10:56:32 +08:00
scrapy开发成本高,pyspider半小时搞定
|
18
gouwudang 2015-02-27 11:01:34 +08:00
楼主可以来我司工作,每天得爬上亿条数据
|
20
cxl008 2015-02-27 11:05:58 +08:00
scrapy+mongodb+redis 的方案 分布40台机器。。 爬取国内200多个安卓市场。。。。。。。。数据量到1亿左右。。没有3楼那么牛逼了。。。。
|
22
Anybfans 2015-02-27 11:14:54 +08:00
突然感觉3L在360上班。。。
|
24
mengskysama 2015-02-27 11:29:54 +08:00
|
25
nine 2015-02-27 11:45:38 +08:00
pyspider吧,很好用。。
|
31
professorz OP |
33
2dog 2015-02-27 13:29:19 +08:00
@laotaitai 邮件沟通吧 [email protected]
|
34
inter 2015-02-27 14:18:54 +08:00
千万算个球大型。我们这一台服务器上的一个爬虫实例,一天就是上千万的请求。
其实还能更高,但是现在提不上去的原因是一个实例就把对方一台服务器的下行吃满了。我们还得想着怎么帮对方提高吞吐量,对方cdn配置有问题的时候还得帮他们做同步. python真是弱啊,上亿的就几十台服务器了。我们这一台单核1g机器,跑两个实例。 1亿请求,200多个站点,这就是台好点的服务器的事情 |
35
Yannis1990 2015-02-27 14:53:17 +08:00
一直想知道 “千万级” 的网站是什么意思?
千万个页面? |
37
professorz OP @Yannis1990 嗯 千万个条目
|
38
mengskysama 2015-02-27 15:44:25 +08:00 1
@cxl008 www.66ip.cn/zz.html 估计都是扫出来的,无辜的网民
|
39
mikangchan 2015-02-27 18:16:32 +08:00
想求教下怎么精确控制内容...
数据量不大,不过图片较多,而且要精确控制一部分文字内容 |
41
lonelygo 2015-02-27 23:53:28 +08:00
我是来看3楼歪楼的
|
42
flyingkid 2015-02-28 09:16:30 +08:00
3L如果是写DHT爬虫的话我还是相信的。
|
43
professorz OP @inter 你们不是用的python?用的啥?
|
45
linkupmylife 2015-03-01 13:57:44 +08:00
我也玩过爬虫,爬完全是HTML,再用HTM转TXT之后放到EXCEL里筛选,非常麻烦。
|