1
llhh 2014-10-30 15:03:07 +08:00
希望早日出来这样的东东,见过卖数据的倒是。
|
2
oott123 2014-10-30 15:15:13 +08:00 via Android
这…合法么…
|
3
luw2007 OP 看到 https://groups.google.com/d/topic/python-cn/O0oKyY7BqoE 里面提到了import.io. 才仔细考虑这个实现的可能性.
对于合法性. 数据生成环节打包给用户, 可以规避掉法律问题. |
4
Saaee 2014-10-30 15:29:43 +08:00 1
我记得火车头提供出售采集规则的服务。
|
5
puyo 2014-10-30 15:30:10 +08:00
我给学校一个部门做一个爬取新闻数据的爬虫(用于在另一个小型 web 系统上,我打算假期用 node.js 重写,顺便学习一下 node.js )。有个老师想让我做一个非编程人员使用的平台,通过相对简单的操作就可以爬取数据。有个叫做“火车头”的软件,不知道好不好用。
|
6
linzy 2014-10-30 15:31:04 +08:00
规则编写很难统一吧
|
7
luw2007 OP @linzy 规则编写是比较难统一, 目前没有想好如何实现, 但是一定不会太复杂.
初步构想: 包装下python, js , golang 下常用的爬虫库, 然后约定成相同的规则实现对应的框架. 开发提供的并非简单的文本描述, 而是根据框架提供的api完成爬取和整合数据的操作. |
9
luw2007 OP |
10
Doubear 2014-10-30 17:23:52 +08:00
昨天用PHP写了个爬虫抓一个网站的数据,几千条几下搞完,还保存图片的 但是还是感觉慢 主要是写得慢~~~
|
11
luw2007 OP @Doubear 平台提供的是交易和执行环境. 你爬了这个站. 其他人也想要, 怎么办. 通过平台, 你可以把你的爬虫买给他们. 他们自己去定制跑任务. 而不用自己去写爬虫爬取.
其实主要是集中爬虫. 避免大家都在重复写同样的内容. |
12
linzy 2014-10-30 18:15:30 +08:00
火车头对一般数据采集应该可以,不过需要一些学习成本。比较不可接受的是对页面js解析,我记得好像不可能,至少需要配合类似fiddler的。
|
13
ryan10107 2014-10-30 19:34:03 +08:00
我也和楼主有过同样的想法,做的是平台,然后平台促成一个供求关系。例如求某个网站的数据,如淘宝某店铺所有商品数据到excel表,这份excel表就是客户需要的商品,然后有爬虫开发者根据平台提供的API写好抓取规则,例如某宝贝标题之类的,然后由平台根据开发者写好的抓取规则,去完成抓取的过程,再生成客户需要的excel表。
|
14
songxajh 2014-10-31 09:26:20 +08:00
cool,but who care?
|
15
ziyunhx 2014-10-31 09:44:55 +08:00 1
|
16
ziyunhx 2014-10-31 10:06:43 +08:00
输入的是一个xml的规则,输出json数组;目前支持的规则包含了
Get/Post/Login/Logout/click/dowmload/focus/input/mouseove/parse/parsefile 等绝大多数网络和浏览器操作的模拟。 |
18
GeekGao 2014-11-01 00:52:08 +08:00 1
|
19
wangleineo 2014-11-01 01:47:00 +08:00
@luw2007 我觉得更有价值的是爬虫规则的人工维护。
写过爬虫的都知道,面对网页的结构调整和特征变化(比如元素id,className变了),爬虫很容易失效,解决这个问题有两个办法:1. 写出非常智能、健壮的爬虫;2. 人肉更新爬虫规则。现在看起来1似乎不太乐观,2可以用软件反复测试来发现失效,但是更新规则还是需要人的参与。所以如果有这样一个平台,提供爬虫源码(或者语言无关的抓取规则),同时鼓励所有用户自主更新已经失效的规则,用wikipedia众包的模式尽最大可能维持爬虫的有效性,还是蛮有价值的。 但是悖论在于,如果被爬的网站不希望被爬,那这个平台让爬虫变透明了,网站会故意打破抓取规则,最后变成‘看谁改的快’的游戏;如果网站希望自己被扒,那就开放API好了,爬取多麻烦。 |
20
luw2007 OP @wangleineo @ziyunhx 很多网站不会提供api,同时也不阻止爬虫爬取。比如一些地方政府网站, 或者一些公益网站。 这些网站可能开发完毕之后就很少改动界面结构, 但是数据内容却一直在不断更新。 它们不会提供api给开发者,或者提供开发者友好的数据源。因此需要爬虫来整理数据。这些爬虫规则的维护成本不高, 并且将开发成本转嫁给消费者, 消费者提供一定的报酬的规则维护者。
说到底, 只是提供交流的平台。 具体维护还是需要各个开发自行去维护。 |
21
ziyunhx 2014-11-03 15:26:56 +08:00
@wangleineo @luw2007 页面智能抽取目前我们这边也有一套比较完整的算法,正确率在80%以上;今后可能也会开源。可以持续关注下。
|
22
luw2007 OP 大家可以专注下 binux做的 https://github.com/binux/pyspider
|