试了下京东 www.jd.com/robots.txt 跳首页了。这中间是有什么故事让其它搜索引擎没有抓取他家数据。
1
Jooooooooo 2021-12-02 17:24:16 +08:00 2
|
2
Xusually 2021-12-02 17:25:56 +08:00
确实很奇怪,之前是有的。
|
3
cairnechen 2021-12-02 17:30:21 +08:00
User-agent: *
Disallow: /?* Disallow: /pop/*.html Disallow: /pinpai/*.html?* User-agent: EtaoSpider Disallow: / User-agent: HuihuiSpider Disallow: / User-agent: GwdangSpider Disallow: / User-agent: WochachaSpider Disallow: / 去年 11 月 10 号因为未知原因下线了 |
4
muzuiget 2021-12-02 17:32:06 +08:00
robots.txt 只是君子协定。
|
5
ytll21 2021-12-02 17:37:37 +08:00 5
京东其实没有动力做反爬,因为它主要以自营为主,所以和亚马逊类似逻辑,成交越多越好。淘宝的逻辑会有点不一样,因为淘宝盈利点在于店铺流量,所以让搜索引擎把流量吸走的做法是不符合它自身利益的。
|
6
ytll21 2021-12-02 17:39:23 +08:00
恩,这只是我的一点不成熟的想法,欢迎指正 dodge
|
7
k9982874 2021-12-02 17:41:00 +08:00 1
放 robots.txt 对国内搜索引擎反而是一份 sitemap
|
8
liuzhaowei55 2021-12-02 18:10:49 +08:00 via Android
各家爬虫会使用特别的 ua ,针对 ua 做了处理吧
|
9
locoz 2021-12-02 18:24:18 +08:00
有没有 robots.txt 都不影响被爬和反爬,robots.txt 只是君子协定而已。
|
11
gam2046 2021-12-02 19:19:48 +08:00 8
赞同#5 说法,以自营为主的情况下,其实京东相比之下,并不关心流量来源,重要的是有流量,其次是有成交。所以应该是巴不得四面八方的人给京东做引流,反正是从 A 搜索来成交,还是从 B 搜索来成交,都是自营,没差别。
至于京东的第三方商家,京东自己都不太管他们死活。 而淘宝需要自己掌握流量的核心诉求是,淘宝自己要卖流量给第三方商家,如果大量站外流量,会导致淘宝自己无法卖流量。 |
12
karloku 2021-12-02 19:41:12 +08:00
爬虫和搜索引擎分开说
我是搜索引擎我也不给自营的电商网站做索引啊, 这都是卖钱的广告流量我主动送给他干什么嘛. |
13
wqhui 2021-12-02 20:06:12 +08:00
robots 只是说你不想被爬,别人爬不爬还是看别人意愿。。。
|
14
pengtdyd 2021-12-02 20:54:07 +08:00
我记得之前有个 JD 的人写了一本书 叫亿级流量。。。里面写了一段关于京东爬虫的内容,去看看吧。
|
15
12101111 2021-12-02 23:27:26 +08:00
Google 5900x site: jd.com
第一条 https://item.jd.com/100016046842.html 第二条 https://item.jd.com/10031652556617.html 显然是允许被爬的 |
16
swulling 2021-12-03 00:36:21 +08:00 via iPhone 3
京东希望你来爬,但是不希望你爬价格做比价。所以京东反扒策略一般都做在价格显示上。
淘宝就根本不希望你来爬,所以淘宝把反扒策略做到页面上。 |
17
mineralsalt 2021-12-03 00:56:47 +08:00 5
robots: "不要 不要 不要"
爬虫: "叫吧, 你越叫我越兴奋" |
19
mostkia 2021-12-03 09:08:08 +08:00
这玩意儿防君子不防小人,真的要做反爬,还得上非人类识别技术,某宝上偶尔客户端刷的快了,都会出现滑动条识别是不是爬虫。
|
20
realskywalker 2021-12-03 09:53:44 +08:00
你让我不爬我就不爬?
|
24
solar 2021-12-03 15:28:47 +08:00
robots.txt 只是个君子协议而已,并没有法律效力或强制性的。
|
25
jiafeiblog 2022-04-22 10:00:56 +08:00
amazon 还是有反爬的,只是人家的容忍度要高得多
|