1
v9ox 2016-12-08 14:44:13 +08:00
论坛搞成登陆之后可见的 百度没有账号 就没法爬了吧
|
2
zzlettle OP @v9ox 登录以后才能看到真正的内容,对用户体验不好啊。我希望就像 V2EX 一样,是个人打开页面就能看到内容了。但对于百度,他们来爬的话,我希望用一些技术手段,让他们看不到内容,而只是看到 js 代码。
|
3
qiayue 2016-12-08 14:51:42 +08:00
1 、 robots.txt
2 、<meta name="robots" content="robotterms" /> |
4
yankebupt 2016-12-08 14:55:13 +08:00 via Android
国内有的拿用户浏览器协助爬防不住,建议技术手段强制用户用 chrome 或支持 inprivate 的浏览器隐私模式访问 https ,防止被爬。
|
6
zzlettle OP |
7
ys0290 2016-12-08 15:22:35 +08:00 via iPhone
楼主 too naive
|
8
mcfog 2016-12-08 15:23:30 +08:00
你觉得墙是用百度来找有问题的网站的么?
|
11
qiayue 2016-12-08 15:26:13 +08:00
楼主你真是牛逼,能让百度专门为你修改爬虫代码
|
13
J0022ZjV7055oN64 2016-12-08 17:03:53 +08:00 via Android
(:3_ヽ)_不是可以 robots 禁止爬虫吗 虽然百度不一定遵守 好像可以通过 nginx 设置(参见 ss 站禁止爬虫)
|
14
zzlettle OP |
15
Lonely 2016-12-08 17:30:53 +08:00 via iPhone
找百度合作
|
16
sneezry 2016-12-08 17:31:38 +08:00
|
18
ferrum 2016-12-08 17:40:32 +08:00
首先在根目录下添加个 robots.txt ,把百度的爬虫禁了先。别管人家遵不遵守,万一人家确实是按规矩办事呢?
然后采用前后端分离的方式开发你的网站,即内容通过 Ajax 获取,而不是直接返回 HTML 。百度爬虫现在还爬不了 JS 生成的内容。 |
19
hundan 2016-12-08 17:43:16 +08:00 via Android
然而,被墙不只是因为百度啊,怕被墙可以用国外 CDN ,如果觉得速度有影响,可以再用国内 CDN 解析到国外 CDN
|
20
wenzichel 2016-12-08 17:45:22 +08:00
网页中的内容用 ajax 获取,或者先把内容写到 js 里,然后再用 js 填充到页面上
|
21
Hanxv 2016-12-08 17:54:59 +08:00
http://hanxv.pw/robots.txt
https://www.baidu.com/s?wd=site:hanxv.pw 無論怎麼做,都還是會爬的。 robots 屏蔽了不說, pw 被玩成什麼樣了它居然還爬。 不過我的使用關鍵詞基本上是搜索不到的了。 ( 就算不用 robots , pw 的權重 www |
22
wenymedia 2016-12-08 19:04:57 +08:00 via Android
数据客户端渲染 不要服务端渲染 不就好了
|
23
Hello1995 2016-12-08 19:33:16 +08:00 via iPhone
屏蔽 UA ,特别注意包含 Spider 、 Bot 两个字眼的。针对百度就是 Baiduspider (注意设置不区分大小写),你可以把 UA 带有这个字眼的访问 301 回百度首页。
|
24
MC 2016-12-08 19:46:05 +08:00
|
25
techmoe 2016-12-08 19:46:26 +08:00 via Android
同意 16 楼做法,直接在 dns 里把百度 ip 段甩 127
|
26
badcode 2016-12-09 03:27:26 +08:00
<meta name="robots" content="noarchive" />
<meta http-equiv="Cache-Control" content="no-transform" /> <meta http-equiv="Cache-Control" content="no-siteapp" /> <meta name="robots" content="index,nofollow" /> robots 加屏蔽 UA, spider, Bot ,返 403 , 还好,故意开始测试过一段时间, 关键字首页前三,现在好像都找不到了? 看日志,其实还是每天都在爬!爬虫都能自己"改" UA |
27
yankebupt 2016-12-19 20:32:10 +08:00 via Android
不好意思翻老贴了,因为想到一个很贱的方法,就是刻意用隐藏文字 spam 热门关键字,(真正的关键字反而做反爬脚本处理),让搜索引擎的爬虫把你误判成一个恶意 seo 的垃圾网站,有可能排名就靠后了。当然防不了真人工就是了
|