链接: http://jandan.net/pic/page-297#comment-3600673
可以看出一个 ip 能占好多资源
讲道理,咱得有点良心对吧。人家煎蛋没咋盈利,真要倒了大家摸鱼都不自在。而且 tumblr 上的妹子多多了去了,经得起你玩,而且好多煎蛋上的妹子图都转自 tumblr。你要是一裤裆火憋不住的话,github 上还有硬盘女神
1
Nostalgiaaaa 2017-10-31 15:16:16 +08:00
看到煎蛋底下评论骂声一片。。。真的惨
|
2
Lentin 2017-10-31 15:20:26 +08:00
前排提示 tumblr 有 api 随便爬
|
3
togodo 2017-10-31 15:22:54 +08:00
公布爬虫代码的后果居然如此可怕。。。。
|
4
f2f2f 2017-10-31 15:26:12 +08:00
colt 表示晚上要来这怼人啦!准备好小板凳看戏啦!
|
6
qqwinds 2017-10-31 15:28:10 +08:00
q 前排出售小板凳。。。
|
7
zpf124 2017-10-31 15:32:49 +08:00
吃瓜看戏,小板凳准备好了, 话说有个帖子的哥们不是说 gz 解压之后总共才数据才 16M。
爬 4/500 的那些大仙到底爬了多少遍,还是说爬虫算法写的太捉急了... |
8
avrillavigne 2017-10-31 15:33:27 +08:00
Livid 啥时候也来怼一波
|
9
yuxuan 2017-10-31 15:35:04 +08:00
前排看戏
|
10
MrIndescribable 2017-10-31 15:35:20 +08:00
我来带一波节奏:
aHR0cHM6Ly9pLmltZ3VyLmNvbS9QeEF6SHZuLnBuZw== |
11
congeec OP @MrIndescribable 老哥稳👍,打开图前我还在想要不要买营养快线呢😂
|
12
acoldfox 2017-10-31 15:42:04 +08:00
笑死,从 V2EX 闹到煎蛋又要闹回来了
|
13
mysql 2017-10-31 15:42:32 +08:00
他用的什么 cdn
|
14
MrIndescribable 2017-10-31 15:42:39 +08:00
@congeec 我这是新号,图床链接不让发。。。
|
15
aengui 2017-10-31 15:42:44 +08:00
硬盘女神还能用吗?
|
16
schema 2017-10-31 15:43:55 +08:00
某程序员炫耀。。。哈哈哈哈
也不是一次两次了 |
17
6IbA2bj5ip3tK49j 2017-10-31 15:44:27 +08:00
|
18
mdzz 2017-10-31 16:06:13 +08:00
|
20
yezhiye 2017-10-31 16:43:09 +08:00 via Android
不是用微博的图床吗…看了下好像就图标还有些 js 文件什么的在服务器上,怎么会被爬掉这么多流量…
|
21
anyele 2017-10-31 16:56:41 +08:00
|
22
soulmine 2017-10-31 16:59:54 +08:00 1
恕我直言 把人家网站都爬垮的爬虫只能说明太次 无非是什么算法都不优化 一个页面来回爬十几遍 或者说爬起来内部逻辑死循环 一秒钟发了一千个请求 这些都是水平的差距 www
|
23
soulmine 2017-10-31 17:01:08 +08:00
还有这破站有毛线好爬的 虽说我是拿 B 和 zhihu 还有 tieba 当练手的 www
|
24
tumbzzc 2017-10-31 17:01:59 +08:00
还是爬 tumblr 吧,丢坟贴
https://www.v2ex.com/t/316337#reply49 |
25
jy02201949 2017-10-31 17:08:00 +08:00
次数多了,流量没看出多了很多啊
|
27
dven 2017-10-31 17:18:20 +08:00
哈哈哈为啥大家爬的资源都是妹子图
|
28
hcnhcn012 2017-10-31 17:29:04 +08:00 via iPhone
年度大戏?
|
29
Osk 2017-10-31 18:12:37 +08:00 via Android
https://{username}.tumblr.com/api/read/json?start={startpostnumber}&num={showposts}
|
30
WordTian 2017-10-31 18:36:40 +08:00 via Android
30 日那天最多的那个爬了 105 万次,平均每秒 12 次多,丧心病狂啊
|
32
xenme 2017-10-31 19:29:30 +08:00
楼上好多厉害的爬虫老司机,合伙写个无影响又快速的煎蛋爬虫好了,或者直接官方出个压缩包,然后直接 BT 每天共享下载
|
33
litter123 2017-10-31 19:42:12 +08:00
@WordTian QPS 12,emmm......这很多吗? 105 万次是多了点,不过说实话,也就次数看起来多一点罢了,流量加起来跑了都没 10G 吧
|
34
olOwOlo 2017-10-31 19:54:18 +08:00
刚刚翻了一下这个网站,首页不到 3000 页,妹子图、无聊图不过 300 页,其他更少。讲道理整站爬下来估计 5000 次请求左右,更何况图片请求全部在微博上(怎么没人心疼微博?),像第二张图这种明显明显明显有问题的 IP 稍微有点反爬机制都能 ban 了,还是说 CDN 不提供防火墙功能么 = =
|
35
wisper 2017-10-31 20:05:33 +08:00
@olOwOlo 因为定期清理。无聊图现在基本保持 300 的留存度,原来是一年到两年清理一次,现在没有教养的没事爬虫一挂,想摸鱼的蛋友就刷不了。所以你们这么牛逼你们自己做个摸鱼的站点啊,非硬生生把人逼得骂脏话才显得你们牛逼大发了吗
|
36
wisper 2017-10-31 20:08:14 +08:00
@litter123 煎蛋非盈利,本来就是 sein 老大的个人 blog,后来慢慢成蛋友摸鱼的地方。你可以说 clot 做的慢不好让他女装,但是恶意爬虫这是生孩子没屁眼的行为。
|
37
WordTian 2017-10-31 20:28:30 +08:00 via Android
@litter123 哥们,爬虫不单是看流量的。高并发的时候,对服务器的 cpu 和内存资源消耗是很大。大公司招聘前后端程序员的时候,对这些东西的调优都会有一定要求的。
针对每个请求,服务器得处理,得读写数据,得把请求的资源返回,这消耗的都是服务器的资源。 而且那只是其中最显眼的一个爬虫,还有很多其他的爬虫,还有很多蛋友在正常浏览网站(不要小看蛋友的访问量)。整体的访问量还是很高的。 再加上煎蛋还是基于 wordpress 的站。。。 再加上站长投放的广告很少,盈利也不多,估计用的网站服务器性能也不咋地。。。 |
38
x7395759 2017-10-31 21:42:41 +08:00
我觉的 clot 还是有套路的,其实要 ban 爬虫就这么难吗,技术上解决不了?
|
40
banwagong 2017-10-31 22:45:38 +08:00
有没有大佬会做反代的?
|
41
congeec OP @banwagong 很多人都会吧。貌似去年 V2EX 流行反代,GayHub 上一大堆反代 Google 的教程和代码
|
44
annielong 2017-11-01 10:03:44 +08:00
爬虫咋占那么多资源,难道来个循环抓取吗,明显不正常
|
45
xxdd 2017-11-01 11:01:18 +08:00
羡慕站长 可以积累丰富的反爬经验···
|
47
litter123 2017-11-01 12:15:28 +08:00
|
48
WordTian 2017-11-01 12:40:57 +08:00
@litter123
但是你没算支出啊 技术:ECS 服务器,RDS 数据库,图床服务器,CDN 服务,Memcache 缓存,网络安全服务及日常维护。 人员:煎蛋办公室全职员工工资及每月几十位兼职作者的稿费。 当然,现在煎蛋办公室都没了,人员支出估计少了很多 关于流量,昨天 sein 的原话: "被恶意爬站还被分享爬虫,导致煎蛋这几天高峰访问次数高达 1500 万次 /天 如果是真实流量当然是好事,但近 9 成是爬虫" |
49
litter123 2017-11-01 12:46:48 +08:00
@WordTian emmm......如果是这样,确实支出很多。
不过我觉得你说的服务器,除了 CDN 1T 流量最多 300 元左右,其他都能在一台服务器上搞定,一台服务器价格大概 600 月付吧,就算买个 3、4 台组集群(逃 |
50
q573709499 2017-11-02 06:26:57 +08:00 1
@litter123 站长已经多次表示这是他业余时间维护的小站,真日入 500 如何? 9 成流量来自爬虫,你说说怎么盈利,虽然蛋友发的妹子图,无聊图没有版权,好歹也是爱煎蛋的人,而不是我转载回去后声称都是我找的,我爬虫技术好棒棒。坛子里面那个收集妹子图做站点的,删除是删除了,还在他 qq 群里面声称开源爬虫代码,有能力就直接和大站玩啦
|