2020-11-25 01:36:43 117.95.165.58 Mozilla/5.0(Linux;U;Android+5.1.1;zh-CN;OPPO+A33+Build/LMY47V)+AppleWebKit/537.36(KHTML,like+Gecko)+Version/4.0+Chrome/40.0.2214.89+UCBrowser/11.7.0.953+Mobile+Safari/537.36 200 0 0 325
这个 OPPO 手机一天可能刷上千上万, IP 也有很多很多 他怎么做到的?
1
zhs227 2020-11-25 09:52:56 +08:00 3
如果你会编程你就会发现这个 UA 是可以自己写的,写成阿猫阿狗也可以。对方说自己是个手机,不一定真的是个手机。
|
2
Xusually 2020-11-25 09:54:39 +08:00 1
采集器的日常 UA 伪造+代理池
|
3
WhiteSheep 2020-11-25 09:55:48 +08:00
难道是 Tor ?(划掉
|
5
raaaaaar 2020-11-25 10:01:50 +08:00 via Android
ua 可以坏,IP 有代理池
|
6
meik2333 2020-11-25 10:04:12 +08:00
IP 可能是代理,UA 应该是伪造的,毕竟现在还是 Android 5.1 的手机已经不多了。
|
8
lbp0200 2020-11-25 10:09:59 +08:00
都是真实的 IP 地址,某宝上很便宜的,自动随机切换 IP 地址。
用 IP 地址区分爬虫? too young too simple |
9
qiayue 2020-11-25 10:11:16 +08:00
一个常识,相同厂家相同型号官方浏览器的 UA 都是相同的,所以根本就不应该用 UA 来认定唯一用户,UA 是一类设备的特征,不是某个特定设备的特征
|
10
zhs227 2020-11-25 10:13:34 +08:00
IP 一直不停的变肯定是代理池。也就是说真实的 IP,但这个 IP 的拥有者(不?)清楚别人在用他的 IP 访问你的网站。这种一般都是爬虫在开采内容。和正常访问差不多,一般也不太容易区分出来。如果他愿意,不停的变换 UA 也是可以的
|
11
shiro327 2020-11-25 10:29:26 +08:00 3
用长城宽带自带这个 buff
|
12
worldtongfb 2020-11-25 12:01:16 +08:00
不知道谁写的爬虫,真的是沙雕一样,去重都不做,20w 的数据天天翻来覆去的爬,日志里面都是,统计都没法做了,
就这几个 ua, ```` Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/42.0.2311.138 Mobile Safari/537.36 Mb2345Browser/9.0 Mozilla/5.0 (Linux; Android 7.0; FRD-AL00 Build/HUAWEIFRD-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/53.0.2785.49 Mobile MQQBrowser/6.2 TBS/043602 Safari/537.36 MicroMessenger/6.5.16.1120 NetType/WIFI Language/zh_CN Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36 LieBaoFast/4.51.3 ```` 用 cf 的话这几个 ua 开验证,没有的话直接 nginx 里 ban 掉,他们 ip 都是重复拨号的把,在一个范围里波动,直接封 ip 段也行 ```` if ($http_user_agent ~* (wget|curl|python|mj12bot|Bytespider|DotBot|ahrefs|AL00|A33|2345|LieBao|petalbot) ) { return 403; } ```` |