请问怎样禁止这个叫wumii无觅的网站对内容的抓取

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4106 天前的主题，其中的信息可能已经有所发展或是发生改变。

这个叫wumii无觅的网站未经允许随意抓取我们的原创内容，我们一发文章基本上秒速就被抓去，跟对方邮件沟通完全置之不理。他们抓取内容后有两种展现方式，一种是用框架直接打开我们网页，一种是下面这种直接抓内容到他们网站上。

http://www.wumii.com/item/c0CpGgOA

请问要怎样在服务器日志里面快速找出这个叫wumii无觅的网站的爬虫ip并禁掉它？或者仅仅屏蔽掉这个网站的ip就可以？

无觅

wumii

抓取

25 条回复 • 1970-01-01 08:00:00 +08:00

ooh

2013-12-15 16:48:13 +08:00

关键是找出他的机器ip,给他点porn？

sanddudu

2013-12-15 16:50:09 +08:00

如果对方还有良心，UA里会用 XX-Spider 这样的字符表示
完全无节操，模拟客户端访问，那就在发一篇文章之后看着请求日志，如果发现有可疑ip就查日志

GASALA

2013-12-15 16:50:31 +08:00

@ooh 嗯，我在日志文件里面没办法确定哪个是他们的。

GASALA

2013-12-15 16:52:50 +08:00

@sanddudu 嗯，常规几个搜索引擎的都有标识，但是这个网站实在没有看到有明显的标识，看来只能一个一个排除？那工作量好大，日志文件很大。

ooh

2013-12-15 16:56:16 +08:00

@GASALA 哎，你看看他们网站ip是多少，找找看日志里面有没有，一般来说他访问时间很固定，可能一天就那么几次，也有可能是手动触发，所以说要找到他很难，可以试试检查header各个参数来揪出来，问题是恐怕不止一个在爬吧，让他去吧

GASALA

2013-12-15 16:57:42 +08:00

@ooh 查过了，日志里面没有网站所在的ip。嗯，工作量好大，看来只能随他去了

sanddudu

2013-12-15 16:58:23 +08:00

@GASALA 看了下，估计不止一个爬虫。这下难说了，通过能沟通的渠道看看。

Kirkcong

2013-12-15 17:08:36 +08:00

直接律师函即可，这样就不适用避风港原则了。

Livid

MOD

2013-12-15 17:09:35 +08:00

给 2 个小时的日志样本来看看吧。

zeinima

2013-12-15 20:44:45 +08:00

取证保存公证
找个律师发封律师信

zeinima

2013-12-15 20:45:04 +08:00

法制不健全的受害者就是普通人

snowhs

2013-12-15 21:44:53 +08:00

> 我们希望加入的人有以下特征
> 1. 正直。

摘自 http://www.wumii.com/about/jobs

我咳嗽刚好一点又笑到发作了...

snowhs

2013-12-15 21:48:26 +08:00

btw, 我就引用一下内容，不对事情本身发表意见。

rove

2013-12-15 21:54:01 +08:00

跑个题，Greader以前也可以对内容直接抓取···

lovejoy

2013-12-15 22:52:15 +08:00

虎嗅？发律师函吧，不标明是spider，而且你们访问量应该比较大，日志确实难分析，或者明天发篇文章黑下对方？

abbatuu

2013-12-15 23:32:48 +08:00

技术仅仅是一个层面的东西
你还可以选择
1 工商局投诉深圳二木科技有限公司
2 为它做一些广告当然是负面的每一篇文章内容前增加一句注释 wumii无良盗取内容
3 联合其他被盗受损的客户寻求法律支持

binux

2013-12-15 23:40:48 +08:00

发一篇文章，首先限制奇数IP不可见，5分钟后放开。如果在这时间内对方抓去了，那就排除掉一半了，如此往复

binux

2013-12-15 23:45:06 +08:00

突然想到这个太麻烦了。。
直接文章里面插入一个编码，每次访问都不同，抓去之后看他抓的那个编码对应的请求信息就完了。

yingluck

2013-12-15 23:58:34 +08:00

@binux 好办法! 还可以与IP运算与客户端信息运算直接显示在文章中到时候直接看这个随机数就行了

isy

2013-12-16 00:07:00 +08:00

@binux 这样岂不是文章缓存不了？访问量大的会不会直接死掉。

binux

2013-12-16 00:12:22 +08:00

@isy 看在哪层做咯，应用服务器出来的结果依旧缓存起来，增加一层专门添加这个串，性能不会太差
比如用openresty

txlty

2013-12-16 04:28:17 +08:00

有个办法是批量连接访客IP的80端口，如果哪个IP是通的，就有服务器嫌疑。

其实这个问题在技术上无解。如果采集程序在工作场所的PC上，由PC端上传入库。工作场所是adsl拨号产生的动态IP，怎么封？

txlty

2013-12-16 04:53:39 +08:00

如果采集方使用的不是100%模拟浏览器（不请求图片、不执行JS），那么是有办法抓出采集者IP的。

访问文章页面->记录访客IP，（延迟n秒后）通过页面一段JS以ajax方式发出一个请求，响应端收到请求后删除IP记录或标记IP为正常访问。
这样，留下来的就是机器人IP。如果是固定IP那就好办了。注意别把搜索蜘蛛当采集爬虫了。

wzxjohn

2013-12-16 09:42:36 +08:00 via Android

看了大家的方法让我顿时觉得，原来还能这么玩！受教了！

underone

2013-12-16 10:21:08 +08:00

直接微博上去@林承仁比较有效吧
在无觅初创的时候，还是很用过一阵的，没想到现在变成这样……