防止网站数据被别人抓取，有哪些途径和具体的措施？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4277 天前的主题，其中的信息可能已经有所发展或是发生改变。

从豆瓣旅行的事情想到的，有没有实际可行的放抓取方法呢？

我能想到的几点：

1.通过UA限制访问，不过UA很容易模拟绕过
2.在网页内容和结构上做混淆，比如打乱顺序，再通过js调整到顺序正常
3.从抓取频率上控制，基于Cookie和IP限制访问频率，可以利用Web Server的防攻击策略来做
4.频繁地，不规律地（不可预测）改变网页结构，增大抓取成本

因为没做过抓取，不知道是否实际可行，请大家提供建议。

20 条回复 • 1970-01-01 08:00:00 +08:00

1

explon

2013-06-09 11:49:08 +08:00

关闭网站别人就抓不到了

2

Cadina

OP

2013-06-09 11:50:01 +08:00

@explon 额。。只是想从技术上探讨一下，没有其他意思：）

3

Zhang

2013-06-09 12:01:24 +08:00

转换成图片？

4

Zhang

2013-06-09 12:01:38 +08:00

像京东那样！

5

lch21

2013-06-09 12:01:51 +08:00

全部用java script 输出内容

6

Zhang

2013-06-09 12:02:27 +08:00

@lch21 那就是像facebook那样咯？

7

Cadina

OP

2013-06-09 12:07:14 +08:00

@Zhang 图片体验不太好

8

Zhang

2013-06-09 12:12:38 +08:00

@Cadina 那就学facebook的timeline和newsfeed那样吧

9

shizhuan

2013-06-09 12:16:45 +08:00

藏一些彩蛋，然后用法律武器搞死他！

参见最近豆瓣旅游爬别人数据被抓的案例...

10

y051313

2013-06-09 12:27:52 +08:00

@shizhuan
个人网站没功夫折腾的。。。

我网站上的图片和文字被一个香港人拷贝，然后放到ebay上面了，图片上面还有我的水印。我发邮件给ebay，ebay让我给出证据，我说水印不是证据吗？答复说不行，需要公证

11

airyland

2013-06-09 12:54:14 +08:00

除了做成图片，写一个chrome插件基本破掉所有的限制。不过，做成图片的话，相当蛋疼吧。

12

Cadina

OP

2013-06-09 13:22:31 +08:00

@airyland 和chrome插件有什么关系呢，我想讨论的是脚本爬虫抓取

13

xingzhi

2013-06-09 14:17:58 +08:00

1

robbin的这篇文章总结得很好： http://robbinfan.com/blog/11/anti-crawler-strategy

14

Rabbit52

2013-06-09 14:21:26 +08:00

那样SEO就不好咯~

15

ejin

2013-06-09 16:31:06 +08:00

全站flash 不解释什么js都弱爆了

16

code4craft

2013-06-09 22:23:39 +08:00

根本上来说，因为html的特点，没啥好办法，更何况还要照顾搜索引擎爬虫。
ajax加载只是增加一些爬取的成本，写半小时的代码变成写一小时代码，没啥区别。
Cookie没啥用，之前还写过一个带自动登录功能的爬虫，去爬人人日志...
限制IP频率可以拦住一些小站或者个人，算是比较靠谱的办法。

17

binux

2013-06-09 22:31:29 +08:00

如果认真思考过“信息是什么”就知道——这不可能

18

cloudzen

2013-06-09 23:03:36 +08:00

只要是给人看的网站就没办法组织别人抓取

19

Air_Mu

2013-06-10 01:03:38 +08:00

在footer诅咒采集狗是比较靠谱的办法。

20

xhinking

2013-06-10 01:50:56 +08:00

开放api并规定相关使用条约也许是个不错的选择。

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 5203 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 33ms · UTC 01:22 · PVG 09:22 · LAX 17:22 · JFK 20:22
Developed with CodeLauncher
♥ Do have faith in what you're doing.