1
ilovebaicai OP 目前发现 Amazon,也是这样的。使用了代理 ip 去请求,一段时间后,就会让你输入验证码。即使立即更换 ip,也不让访问。
|
2
vus520 2017-12-04 11:47:02 +08:00
估计是代理 IP 被记录了吧。
|
3
ilovebaicai OP @vus520 这个可能性会有。但是我是使用 asdl 自建的代理池,IP 重复的概率不会很大。
|
4
shaobin 2017-12-04 11:54:20 +08:00
useragent ip cookie referer 等特征结合着来
|
5
firefox12 2017-12-04 12:02:18 +08:00 via iPhone
估计这些 ip 结合历史记录看 早就在黑名单了吧
|
6
qu3290052 2017-12-04 12:05:02 +08:00 via Android
1.ip 被拉黑
2,协议头长期没变 |
7
150 2017-12-04 12:07:14 +08:00
我天天浏览车托之家,也经常弹出个验证框,估计也把我当成了代理爬虫
|
8
qwertty01 2017-12-04 12:11:24 +08:00
使用的什么爬虫?
请求头 Cookie 之类的分析了吗? 动态爬虫之类的用了没? |
9
enenaaa 2017-12-04 12:14:31 +08:00
似乎在哪里有人说过,淘宝反爬用的逻辑回归做判断。 也就是说 ip,浏览器信息,浏览行为都会是判断因素。
比如,如果一直只浏览某个页面, 那 99%是爬虫了。 所以需要模拟用户真实的浏览行为。 |
10
ytmsdy 2017-12-04 12:15:54 +08:00
ip,cookies,referer...
还有检查一下爬虫有没有进到蜜罐里面 |
11
Jackeriss 2017-12-04 12:22:52 +08:00
有可能会根据访问频率判断,也可能你访问了只有爬虫才会访问到的隐藏链接。
|
12
zzNucker 2017-12-04 12:28:03 +08:00
就换个 IP 就行了? 你开玩笑吧。。
|
13
LevineChen 2017-12-04 12:43:07 +08:00
你登录了吧 爬一会会强制登录的.
|
14
yuriko 2017-12-04 13:07:50 +08:00
ip 更换频率?分钟级的?
|
15
ilovebaicai OP 目前是 12 个 ip 地址,ip 地址是 5 分钟轮流更换一次,使用随机的 user-agent,header+referer 访问,没使用 cookie。但是即使更换了 ip 地址,这个 ip 地址还是会被 ban。
|
16
shaobin 2017-12-04 13:38:42 +08:00
要么你换出来的 ip 已经再黑名单,要么特质太过明显
|
17
ilovebaicai OP @shaobin 您能说下,这个请求的特质,具体点是什么?我现在使用的 header 是随机,ip 地址也是代理随机拨号的。
|
18
wangxiaoer 2017-12-04 13:55:52 +08:00
你 IP 5 6 分钟切换一次,header 随机,这就有可能在出现下面的情况:
同一个 ip 在 5 6 分钟内的访问,每次 header 都特么不一样。 你说这算不算特征? |
19
ilovebaicai OP @wangxiaoer 如果按照您的说法,我一个公司就一个出口 ip,如果有几十个人同时在访问淘宝,这也是算是同 ip,不同 header 访问,但是并不会被 ban。可能并不会是这个原因导致的。
|
20
cheesea 2017-12-04 14:28:20 +08:00
X-Forwarded-for ?
你都用上拨号了,ip 怎么才这么少,不是每次拨号都会变么。 |
21
dewi 2017-12-04 14:38:46 +08:00
@ilovebaicai MAC 地址你的是固定的,但是你的 header 随机,不查你查谁= =
|
22
ilovebaicai OP @cheesea 预算问题。只有少量的 asdl 的拨号服务。所以 ip 地址更换的并不会很快,但是每次拨号会改变 ip 地址。
|
23
ilovebaicai OP @dewi 这个确实是个问题,谢谢您!
|
24
ilovebaicai OP @cheesea X-Forwarded-for 这个也可能是追踪到了原始 ip,谢谢您!
|
25
find456789 2017-12-04 14:56:30 +08:00
@dewi 网页得不到 mac 地址吧
|
26
capo 2017-12-04 15:01:38 +08:00
请问一下用户的 MAC 地址是可以获取的吗?
|
27
wang12xishan 2017-12-04 15:12:36 +08:00
@dewi 同问 用什么办法可以获取到 MAC 地址
|
28
Level5 2017-12-04 15:17:46 +08:00 1
网页得到 mac 地址?
记得谷歌也是这样。换 ip 已经没用了。有人用 py 包调 IE 浏览器模拟用户请求还是一样被 ban,觉得是不是页面 JS 获取了用户鼠标事件等判断? |
29
smilekung 2017-12-04 15:23:01 +08:00
大概率是触发蜜罐了吧 或者是页面检测了鼠标轨迹 我碰到过 打开页面会先加载反爬 js 然后检测鼠标,不通过就不允许后续接口请求
|
30
guotie 2017-12-04 15:23:51 +08:00
mac 地址从报文中是获取不到的,路由每一跳都会更换 mac 头
|
31
ilovebaicai OP 貌似确认获取不到 mac 地址,可参考 http://www.jianshu.com/p/61b1506e4c0f。
|
33
ilovebaicai OP @smilekung 这个是一个可能的原因,谢谢您!
|
34
wangxiaoer 2017-12-04 16:35:43 +08:00
|
35
binux 2017-12-04 16:44:53 +08:00 via Android 1
所以随机 UA 这东西是谁想出来的?
你不去模拟真实的用户,或者你自己都不知道真实的用户行为是怎样的,不被封才怪了。 |
36
402645707 2017-12-04 16:59:27 +08:00 via Android 1
淘宝 ua 我有个建议,测试发现 ie 浏览器的 ua 可以有效避免验证码
|
37
ryang 2017-12-04 19:26:25 +08:00 1
可以考虑用 selenium+chrome 的方式爬取呢。
目前我用公司的 ip 地址,爬 1000 条没有要求登录。猜测可能是公司人比较多,所以同一个 ip 经常会有不同的人登录或者不登录访问淘宝。 如果用代理,爬个 10 几条就需要登录,但是用密码加短信验证码的方式登录后,再爬取 1000 多条都没有限制。 |
38
akira 2017-12-04 19:50:05 +08:00
尽可能模拟真实用户提交的数据,而不是尽可能的随机
|
39
LukeChien 2017-12-04 20:26:29 +08:00 via Android
你的 IP 不是民用的吧,可以反向解析
|
40
safeoy 2017-12-05 00:16:36 +08:00
试试民用宽带,ADSL 拨号换 IP
|
41
sgissb1 2017-12-05 09:55:25 +08:00
小伙,我这么给你说。就算不用爬虫,我们普通用户上去只要逛的多一点,也常常让我输入坑爹的验证信息。
也许人家的策略比你认为的还暴力。 |
42
wampyl 2017-12-05 10:18:47 +08:00
刷单的都让在页面上停留 30s,还要下拉到最后,所以他们的策略很细的。
|
43
EmmaSwan 2017-12-05 12:38:27 +08:00 via Android
我家電信,公網 ip, 整天讓我輸入驗證碼,煩得我都不樂意買了。
京東從來不需要輸驗證碼 |
44
EmmaSwan 2017-12-05 12:41:20 +08:00 via Android
@sgissb1 關鍵是,輸入一次以後,如果不換 ip,就不應該再重複讓用戶輸入。可事實上,他會持續讓你輸入,每個商品都讓你輸一次,真的不懂怎麼個思路
|
45
sgissb1 2017-12-06 09:56:35 +08:00
@EmmaSwan 这个你也遇到了?如果是真的,我前段时间就这样,幸亏我不怎么买东西。我是大半年没有开过 TB,再打开 TB,貌似就没问题了。因为路由器常年在线,所以 IP 一直是同一个公网 ip。
|
46
EmmaSwan 2017-12-07 14:53:07 +08:00
@sgissb1 经常这样,特别是傍晚到半夜这段时间. 淘宝 /天猫 /飞猪,都这样.
没有什么真的假的,我又不是京东员工,黑淘宝作甚 |
47
EmmaSwan 2017-12-07 14:57:47 +08:00
另外, 我登录支付宝, 是 100%要求短信验证! 即便喝口水回来的功夫, 也会登录失效, 并要求再次使用短信验证码登陆. 我觉得这些人就是故意的, 强迫你使用 APP.
以前我还会用花呗买东西, 现在都不乐意用了, 因为电脑上不给你对账, 你根本不知道上个月买了什么东西, 数额对不对. 用手机来对账, 在我看来非常脑残, 不仅不能一个屏幕上开计算器, 也没有数字小键盘, 而且反复上下拖动屏幕带来的拖尾效果会让眼镜很不舒服 |
49
lxk11153 2020-03-06 20:15:23 +08:00
你们说的蜜罐是啥?
|