是否已经存在爬虫库交易网站, 类似极客网站

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个专门讨论 idea 的地方。

每个人的时间，资源是有限的，有的时候你或许能够想到很多 idea，但是由于现实的限制，却并不是所有的 idea 都能够成为现实。

那这个时候，不妨可以把那些 idea 分享出来，启发别人。

这是一个创建于 3747 天前的主题，其中的信息可能已经有所发展或是发生改变。

平台提供一套爬虫规则.
消费者可以提交站点规则.
生产者可以根据规则编写网站爬虫, 提交到平台中.
平台促成交易,并负责生成数据.
消费者认可数据后付费.

爬虫

提交

生产者

22 条回复 • 2014-11-24 10:14:18 +08:00

llhh

2014-10-30 15:03:07 +08:00

希望早日出来这样的东东，见过卖数据的倒是。

oott123

2014-10-30 15:15:13 +08:00 via Android

这…合法么…

luw2007

2014-10-30 15:28:40 +08:00

看到 https://groups.google.com/d/topic/python-cn/O0oKyY7BqoE 里面提到了import.io. 才仔细考虑这个实现的可能性.
对于合法性. 数据生成环节打包给用户, 可以规避掉法律问题.

Saaee

2014-10-30 15:29:43 +08:00

我记得火车头提供出售采集规则的服务。

puyo

2014-10-30 15:30:10 +08:00

我给学校一个部门做一个爬取新闻数据的爬虫（用于在另一个小型 web 系统上，我打算假期用 node.js 重写，顺便学习一下 node.js ）。有个老师想让我做一个非编程人员使用的平台，通过相对简单的操作就可以爬取数据。有个叫做“火车头”的软件，不知道好不好用。

linzy

2014-10-30 15:31:04 +08:00

规则编写很难统一吧

luw2007

2014-10-30 15:36:46 +08:00

@linzy 规则编写是比较难统一, 目前没有想好如何实现, 但是一定不会太复杂.

初步构想:
包装下python, js , golang 下常用的爬虫库, 然后约定成相同的规则实现对应的框架. 开发提供的并非简单的文本描述, 而是根据框架提供的api完成爬取和整合数据的操作.

TimLang

2014-10-30 15:49:33 +08:00

@linzy 用下火车头就知道怎么回事了。。

luw2007

2014-10-30 16:33:35 +08:00

@mrytsr kmonolabs.com应该和import.io 差不多.
我只是想提供平台. 不想直接实现.
毕竟需要实现的网站太多了.

Doubear

2014-10-30 17:23:52 +08:00

昨天用PHP写了个爬虫抓一个网站的数据，几千条几下搞完，还保存图片的但是还是感觉慢主要是写得慢~~~

luw2007

2014-10-30 17:35:00 +08:00

@Doubear 平台提供的是交易和执行环境. 你爬了这个站. 其他人也想要, 怎么办. 通过平台, 你可以把你的爬虫买给他们. 他们自己去定制跑任务. 而不用自己去写爬虫爬取.

其实主要是集中爬虫. 避免大家都在重复写同样的内容.

linzy

2014-10-30 18:15:30 +08:00

火车头对一般数据采集应该可以，不过需要一些学习成本。比较不可接受的是对页面js解析，我记得好像不可能，至少需要配合类似fiddler的。

ryan10107

2014-10-30 19:34:03 +08:00

我也和楼主有过同样的想法，做的是平台，然后平台促成一个供求关系。例如求某个网站的数据，如淘宝某店铺所有商品数据到excel表，这份excel表就是客户需要的商品，然后有爬虫开发者根据平台提供的API写好抓取规则，例如某宝贝标题之类的，然后由平台根据开发者写好的抓取规则，去完成抓取的过程，再生成客户需要的excel表。

songxajh

2014-10-31 09:26:20 +08:00

cool，but who care？

ziyunhx

2014-10-31 09:44:55 +08:00

我们开源了一个基于规则的爬虫模块，使用C#实现，有兴趣的可以看下
https://github.com/TaikorInc/FalcoA
目前还在完善中，后期会有相关文档

ziyunhx

2014-10-31 10:06:43 +08:00

输入的是一个xml的规则，输出json数组；目前支持的规则包含了
Get/Post/Login/Logout/click/dowmload/focus/input/mouseove/parse/parsefile
等绝大多数网络和浏览器操作的模拟。

ziyunhx

2014-10-31 10:27:48 +08:00

@luw2007 另外规则的共享其实还是会重复消耗资源，最好就直接找数据服务商。

GeekGao

2014-11-01 00:52:08 +08:00

只知道有搞数据的，好像国内还真没有爬虫服务和交易的
http://publish.datatang.com/
http://www.cnpameng.com/

wangleineo

2014-11-01 01:47:00 +08:00

@luw2007 我觉得更有价值的是爬虫规则的人工维护。
写过爬虫的都知道，面对网页的结构调整和特征变化（比如元素id,className变了），爬虫很容易失效，解决这个问题有两个办法：1. 写出非常智能、健壮的爬虫；2. 人肉更新爬虫规则。现在看起来1似乎不太乐观，2可以用软件反复测试来发现失效，但是更新规则还是需要人的参与。所以如果有这样一个平台，提供爬虫源码（或者语言无关的抓取规则），同时鼓励所有用户自主更新已经失效的规则，用wikipedia众包的模式尽最大可能维持爬虫的有效性，还是蛮有价值的。
但是悖论在于，如果被爬的网站不希望被爬，那这个平台让爬虫变透明了，网站会故意打破抓取规则，最后变成‘看谁改的快’的游戏；如果网站希望自己被扒，那就开放API好了，爬取多麻烦。

luw2007

2014-11-03 11:30:30 +08:00

@wangleineo @ziyunhx 很多网站不会提供api，同时也不阻止爬虫爬取。比如一些地方政府网站，或者一些公益网站。这些网站可能开发完毕之后就很少改动界面结构，但是数据内容却一直在不断更新。它们不会提供api给开发者，或者提供开发者友好的数据源。因此需要爬虫来整理数据。这些爬虫规则的维护成本不高，并且将开发成本转嫁给消费者，消费者提供一定的报酬的规则维护者。
说到底，只是提供交流的平台。具体维护还是需要各个开发自行去维护。

ziyunhx

2014-11-03 15:26:56 +08:00

@wangleineo @luw2007 页面智能抽取目前我们这边也有一套比较完整的算法，正确率在80%以上；今后可能也会开源。可以持续关注下。

luw2007

2014-11-24 10:14:18 +08:00

大家可以专注下 binux做的 https://github.com/binux/pyspider