Zaoshu.io - 爬虫界的“美图秀秀”

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 3102 天前的主题，其中的信息可能已经有所发展或是发生改变。

啦啦啦, 给大家推荐 Zaoshu.io (造数)，欢迎大家拍砖~ ; ) 地址是 http://www.zaoshu.io

我们通过一套网页分析的算法，分析出网页中结构化的数据，然后再爬取页面中的数据。

有趣的点: 1.我们完全 base 在云上，省去下载软件的麻烦，也提高了爬取速率 2.我们有智能页面分析的算法，所以用户不需要懂编程和正则，轻点几下就可以爬取数据并导出 Excel 。

你可以通过 zaoshu.io 来做市场的调查分析，来做竞品的监控，也可以做产品反馈的收集。

Feedback: 产品刚刚 Alpha 上线，所以问题不少，欢迎大家来试用~ 欢迎大家留言讨论，也可以邮件 billy#zaoshu.io : )

第 1 条附言 · 2016-10-18 18:59:55 +08:00

暂时还不支持 ajax 站哈

算法

爬虫界

正则

分析

25 条回复 • 2016-10-27 17:33:50 +08:00

Joway

2016-10-18 18:43:19 +08:00

貌似废了, 试了三个网站都卡在正在分析界面 - -

ps: 昨天 hackathon 还做了一个差不多的东西，想问你们这套算法开源吗? 或者能提供点分析思路吗 ? 我是才用行块正文提取 , 但进一步对正文进行结构化提取还真想不出好的方法

a570295535

2016-10-18 18:46:38 +08:00

然而半个小时后。。。

ewex

2016-10-18 19:08:18 +08:00 via Android

用的 wosign 证书，表示已拉黑证书的打不开

binux

2016-10-18 19:12:59 +08:00

根本没有「分析出网页中结构化的数据」，就是非常基础的通过 DOM class id 的 selector 规则生成，连 group 对其都没做好。

haocity

2016-10-18 20:32:29 +08:00

我只想说根本收不到邮件

prefere

2016-10-18 20:53:31 +08:00

见了鬼了，我都拉黑了 wosign 了，怎么还能打开。
还要把 startCom 也拉黑了？

kiah

2016-10-18 20:57:22 +08:00

然而直接打不开了

prefere

2016-10-18 21:09:06 +08:00

搞定了，终于打不开了。 dog

skinfiter

2016-10-19 10:18:51 +08:00

你们。。。

0xNone

2016-10-19 10:21:20 +08:00

Go dead.

patton

2016-10-19 11:31:40 +08:00

一直停留这个页面上分析页面上，没有结果出来

zqiyun

2016-10-19 13:25:10 +08:00

你们真过分！

diefishfish

2016-10-19 14:29:55 +08:00

随便找了个页面测试,创建规则的时候页码输入 100000009 到 114400009 然后发现并没有创建成功,是什么问题咧

billyellow

2016-10-19 18:29:41 +08:00

@ewex 我们马上换证书~~

billyellow

2016-10-19 18:29:54 +08:00

@prefere 马上换证书~~~

billyellow

2016-10-19 18:30:28 +08:00

@Joway 目前我们用得还是比较简单的算法，升级中哈哈有兴趣可以私聊

billyellow

2016-10-19 18:31:12 +08:00

@binux 可能是我描述没写的精确，目前还不算是分析，算是提取~

soulmine

2016-10-20 11:11:32 +08:00

网络异常请稍后再试
讲道理你们这注册都不行怎么留用户 Hhhhh

beidouxun

2016-10-20 11:55:17 +08:00 via Android

我的网站就用了爬虫，现在正在完善中。为了精确用了正则， xpath ，字符串三种方式。现在也在寻找算法但是现在没有很好的算法，能自动并精确的寻找时间正文标题等所需要的内容

mingyun

2016-10-21 22:04:20 +08:00

太慢了，卡死不动了

micookie

2016-10-22 13:09:36 +08:00

注册邮件直接进了 QQ 邮箱直接标记为垃圾邮件。。

fhefh

2016-10-24 19:48:16 +08:00

一直停留在正在分析这个 loading 状态在

ragnaroks

2016-10-25 08:56:12 +08:00

爬取我自己的网站后,进入列表页,点击"我调好了",然后就没有然后了

billyellow

2016-10-27 17:31:48 +08:00

@micookie 邮件这块还在优化中哈

billyellow

2016-10-27 17:33:50 +08:00

@diefishfish 目前页码有个上限~