2020-11-26 01:04:44 GET / s=www.yidianxueche.cn 80 - 27.159.78.41 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 130
2020-11-26 01:04:44 GET / s=www.sw-jewelry.cn 80 - 27.159.78.40 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 142
2020-11-26 01:04:46 GET / s=www.lyjzfw.cn 80 - 27.159.78.50 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 138
以上是一些抓取记录, 百度都在我们网站的根目录加上了 s=别人的域名, 如 www.xxx.com/s=www.longdugame.cn 而且还很多 这是什么原理? 在我们网站的代码里并找不到这些域名
1
RickyC OP # V2EX 是否支持 markdown?
## 看看 |
2
itskingname 2020-11-26 13:45:46 +08:00
这是一种常规的刷排名的手段。你以 『你的域名 /s=别人的域名』在百度上搜索一下看看。他们通过这种方式把自己网站的排名往上刷。
|
3
oott123 2020-11-26 14:18:12 +08:00
|
4
RickyC OP @itskingname 那有什么解决的方法吗? 百度是怎么得到这些网址的?
|
6
oott123 2020-11-26 14:27:10 +08:00 1
@RickyC UA 写了 baiduspider 不代表它就是真的百度蜘蛛,就像我声称我有一百万不代表我真的有一百万一样。
|
7
Rxianbei 2020-11-26 14:32:46 +08:00 via Android
@RickyC 楼主对 HTTP 协议没有基本的了解啊,ua 头是自定义的,你想改成什么都可以,你甚至可以改成 baidudasabi
|
8
Xusually 2020-11-26 14:34:59 +08:00
1 、国际上的一些搜索引擎有自己的 spider ip 段公布的,百度暂时没有官方的查询公布,但是可以通过 ip 反查 ptr 来看是不是百度的蜘蛛
2 、UA 可以随便伪造 3 、你贴的这种行为是标准的恶意辣鸡 seo,还有往你的搜索接口灌各种辣鸡 url 和关键词的恶意搜索等等 |
9
westoy 2020-11-26 14:58:36 +08:00
这是面向站长打广告的
主流蜘蛛的 IP 都可以反查的 蜘蛛可能会用非标 IP 去检测站长有没有面向引擎针对性吐数据 SEO, 但这时候也不会挂爬虫自己的标准 UA |
10
007yxc 2020-11-26 17:19:32 +08:00
我 tm 在工位点了你的链接,我靠- - 还好我手速快关掉了。。。。
|
12
Xusually 2020-11-26 21:47:33 +08:00
@RickyC 恶意的 SEO,举个其中一种简单的例子,假如你的系统有一个搜索功能,那么对方把自己的垃圾信息,比如自己的辣鸡站点的域名、关键字什么的他想 seo 的东西,提交给你的搜索系统。那么有机会你的搜索系统会统计用户搜索的关键字,把他大量提交的辣鸡关键字当作用户的搜索意图,提升了权重,或者进入类似于热搜榜之类的东西。
|
13
id7368 2020-11-26 23:35:55 +08:00 via iPhone
nslookup 百度蜘蛛 ip 如果返回的地址带百度域名就是真蜘蛛 反之也是假冒的 可以将 ip 封锁
|
14
opengps 2020-11-26 23:50:38 +08:00
可能不是真爬虫,而是用来想你打广告的机器人干的
|