1
bazingaterry 2018-01-17 15:05:54 +08:00 via iPhone 1
现在没有反爬不代表将来没有,隐藏好自己也很重要。
如果对抓取速度没要求肯定是设置一下 download delay 或者限制一下并发,别把网站抓跨了得不偿失。 |
2
crab 2018-01-17 15:09:12 +08:00 1
除非你只爬完这次,不然日后还要继续爬,尽可能伪装成正常访客啊。
黑客入侵完都要帮忙做安全打补丁呢 |
3
frank065 OP @bazingaterry @crab DOWNLOAD_DELAY 一般设置多少合适咧?除了常见的 1.设置 DOWNLOAD_DELAY 2.禁止 cookies 3.更换 user agent 4.代理 IP,请问还有其他常见的伪装技巧吗?
|
4
yanzixuan 2018-01-17 15:17:27 +08:00
适度吧。不要把人家玩坏了。逼别人上变态反爬。
|
5
Applenice 2018-01-17 15:23:59 +08:00
你就是装,也要装成 N 个人访问啊,人家哪天看到你天天爬数据,上了反爬,你还得改代码
|
6
HarveyDent 2018-01-17 15:52:02 +08:00
要,说不定数据一多,你的爬虫把他们网站拖垮了呢
|
8
leavic 2018-01-17 15:58:36 +08:00
只要一次爬完爬不挂,就算了吧。
|
9
Gimini 2018-01-17 16:00:31 +08:00
不反爬哪天发现了给你丢脏数据...
|
10
ilovebaicai 2018-01-17 16:35:10 +08:00
数据量不多,DOWNLOAD_DELAY 设置久一点,加一个 user-agent。 如果有条件放几个代理 ip。说不好那天就把你 ip 封了。
|
11
Len1133 2018-01-17 16:52:29 +08:00
加上吧,别把人家搞的不舒服
|
12
beforeuwait 2018-01-17 22:48:19 +08:00
对啊,人家没有反爬,处于道义,不要影响别的用户正常访问,还是需要设置 delay 的
|
13
julyclyde 2018-01-18 16:39:48 +08:00
楼上说的对
|