https://www.baidu.com/robots.txt
https://www.v2ex.com/robots.txt
http://www.taobao.com/robots.txt
"User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /"是指不让百度给爬吗?
这样子指定 User-agent ,这么多爬虫?
User-agent: Baiduspider-image
User-agent: Googlebot
User-agent: YoudaoBot
User-agent: Sogou web spider
User-agent: Sogou inst spider
User-agent: Sogou spider2
User-agent: ChinasoSpider
补上相关链接 从robots.txt能看出什么?
v2 的没列~~
1
exuxu OP 附上一个问题,新闻网址的源都是一个地方发了,然后其它网站都是从这个地方抓过来的么....
|
2
wy315700 2015-05-18 18:26:19 +08:00
08年淘宝就不允许百度去抓取了
|
4
fengyqf 2015-05-18 23:04:34 +08:00
看看有没有哪个二货,把网站管理后台地址放到robotx.txt里,然后你就有地方玩爆破了
|