如果你有关于爬虫的使用创意,需求。 如果你使用中感到哪里不够合。 如果你操作中发现 bug 。 请一定要告诉我。
热切期待新需求,和反馈问题的造数团队:
[email protected]
www.zaoshu.io
1
GrahamCloud OP 会推出一些 side project 方便需求,如果想试用也可以联系我。
|
2
crayonyi 2016-11-09 18:21:44 +08:00 2
对标的是这个网站吗? [https://www.import.io/]( https://www.import.io/)
|
3
GrahamCloud OP @crayonyi 目标不一样,我们期待第一阶段做他们的功能,接下来做一些有意思的扩展。
|
4
wjm2038 2016-11-09 21:56:39 +08:00 via Android 1
不错
|
5
GrahamCloud OP @wjm2038 有什么问题,或者有什么想法一定要告诉我。
|
6
mingyun 2016-11-09 23:34:26 +08:00 1
赞一个
|
7
sssdjiui 2016-11-10 01:35:20 +08:00 2
|
9
strwei 2016-11-10 01:51:13 +08:00
不错哦
|
10
binux 2016-11-10 01:57:52 +08:00 1
上次就说过的,数据行都没有对其,图片价格张冠李戴,这怎么用啊。
给个例子: http://www.ikea.com/gb/en/search/?k=chair |
11
lhx2008 2016-11-10 08:38:36 +08:00 via Android 1
安卓手机下有严重的错位。。
|
12
GrahamCloud OP @lhx2008 现在刚开始做,手机适配还不行。
|
13
GrahamCloud OP @binux 这个问题下周会上一个新版解决。
谢谢上次提出来。这两周 bug 比较多。 |
14
crayonyi 2016-11-10 11:31:02 +08:00 1
@GrahamCloud 如果升级下,感觉就和 https://scrapinghub.com/ 这个差不多。我也一直在做这个, 目前只完成通用爬虫部分: https://github.com/yijingping/unicrawler
|
15
Magic347 2016-11-10 13:40:43 +08:00 1
和 import.io 简单对比了一下,在页面异步加载数据的采集效果上还有待改进:
例如 https://item.taobao.com/item.htm?id=529572785771 淘宝商品详情页面的价格数据, 造数目前是没法采集到的,但是 import.io 是可以准确采集到的。 |
16
GrahamCloud OP @Magic347 说得对,现在对这类支持的还是不够。
|
17
chendajun 2016-11-10 14:33:53 +08:00 1
|
18
GrahamCloud OP @chendajun 目前只有勾选,没有提取正文。
|
19
GrahamCloud OP @chendajun 目前只有自动勾选,没有提取正文。
|
20
crayonyi 2016-11-10 23:11:02 +08:00 1
@GrahamCloud 现在支持翻页吗?我在平台商没有找到,另外 a 链接地址也没有识别出来
|
21
GrahamCloud OP @crayonyi 今天刚挂了,有的功能要以后上。
|
22
scnace 2016-11-11 00:20:08 +08:00 via Android 1
访问知乎的时候 CSS 和 JS 都没有加载出来 (知乎的 css 和 js 请求好像都需要 cookie. 我也不造为毛)
|
23
lslqtz 2016-11-11 01:16:29 +08:00 1
我希望提供 json 的数据接口,而不要 excel 。
|
24
GrahamCloud OP |
25
GrahamCloud OP 现在大家所有的需求和发现的问题都会被感谢,也会被认真处理。
啧啧,谢谢大家。 |
26
GrahamCloud OP @crayonyi 现在翻页是可以的
|
27
wyntergreg 2016-11-11 09:10:52 +08:00 1
别的不说
你发在这里 几天以后你会发现爬了一堆奇怪的东东 |
28
cmisaka 2016-11-11 09:50:00 +08:00 1
在爬淘宝的一个商品页面一直在转...
|
29
panfake 2016-11-11 10:39:22 +08:00 1
一直 loading ,所以采集一个页面需要这么慢?
|
30
GrahamCloud OP |
31
GrahamCloud OP @wyntergreg 现在爬的数据,确实很奇怪。
|
32
billyellow 2016-11-11 11:44:42 +08:00
赞~~~~
|
33
popoer 2016-11-11 15:05:57 +08:00 1
多爬几次会出验证码的网站怎么办呢?
|
34
GrahamCloud OP 目前没有这个问题。非定时任务是直接爬取,定时任务不妨试试看。
|
35
frankmdong 2016-11-12 10:29:58 +08:00 1
爬取到的页面能生成 RSS 地址吗
|
36
tumbzzc 2016-11-12 11:50:57 +08:00 1
出现 500 状态码
|
37
byuc 2016-11-12 14:44:14 +08:00 1
创建任务的时候没有问题,但是进入到账户页面进行爬取得时候就总是执行出错了。
|
38
GrahamCloud OP @byuc 爬取的页面是?
|
39
GrahamCloud OP @tumbzzc 哪个阶段出现的 500 状态?
|
40
tumbzzc 2016-11-12 20:43:28 +08:00 1
@GrahamCloud 输入网址之后点“点击试试”
|
41
byuc 2016-11-13 09:13:13 +08:00 1
@GrahamCloud 无论是什么页面,在创建完任务进行执行的时候都是提示执行出错,而删除数据的按钮也失效了。我测试过单单抓取百度首页的 LOGO ,也失效。
|
42
xssing 2016-11-13 15:09:05 +08:00 1
一直在分析页面中
|
43
mythhack 2016-11-13 15:38:57 +08:00
一直在分析页面中
|
44
kukuwhu 2016-11-13 16:11:39 +08:00 1
呵呵,上次进去随便输入一个 url 无限等待中,这次又进去输入一个简单的 url ,又是无限循环等待。。。
这都能放出来? |
45
GrahamCloud OP |
46
tumbzzc 2016-11-14 11:20:06 +08:00 1
首页的那个“点击试试”还是 500 。
注册后提交网址一直是“造数正在为你分析页面” |
47
GrahamCloud OP @tumbzzc 因为硬盘满了,已经修复。
|
48
GrahamCloud OP 准备上新的 Ui 界面,欢迎批评和试用。
|
49
eminemcola 2016-11-15 00:19:54 +08:00 1
猴
|
50
yh7gdiaYW 2016-11-16 11:53:55 +08:00 1
字体闪瞎我了,首页也就算了,控制台能不能别用 Heiti SC Medium ?
|
51
GrahamCloud OP @yh7gdiaYW 现在弄得确实不太好,首页在测试,估计明天马上要上新的了。字体也会更新,求意见求批评。
|
52
zijikai 2016-11-16 12:12:17 +08:00 via iPhone 1
手机上首页不匹配,不是自响应?
|
53
GrahamCloud OP @zijikai 确实啊,现在只对网页端 URL 功能做了很多尝试。
手机端我们会在周五上一版 UI 。 |
54
wujunze 2016-11-16 13:37:51 +08:00 1
最近类似的云爬虫平台很多 我记得还有一个什么 神箭手来着
|
55
GrahamCloud OP @wujunze 好用不
|
56
est 2016-11-16 14:11:04 +08:00 1
还停留在 “分析页面” 这里。
|
57
GrahamCloud OP @est 我这里显示没问题,不知道我们是不是对浏览器适配没做好,求发浏览器和系统概况。
|
58
est 2016-11-16 14:31:03 +08:00 1
@GrahamCloud 又好了。你们可以上一个 mixpanel 了。
|
59
GrahamCloud OP @est 现在在完善分析用户行为的后台。 trace 的方法还不够好
|
60
alfer 2016-11-16 15:17:50 +08:00 1
抓了个淘宝页面玩玩,一直分析中。。。
|
61
GrahamCloud OP @alfer 准备周末推新 ui 在各种 测试,实在不好意思。
|
62
reticentfat 2016-11-17 09:46:30 +08:00 1
输入了一个贴吧地址怎么输出页面和输入差不多
|
63
GrahamCloud OP @reticentfat 输出页面是你点一下,就帮你自动识别、勾选同类数据。
|
64
honkew 2016-11-17 13:18:39 +08:00 1
|
65
GrahamCloud OP @honkew 目前这样的还不支持,在需求队列中。
|
66
zluyuer 2016-11-17 18:51:08 +08:00 1
似乎对 Ajax 加载支持不好。例: http://shop.m.jd.com/search/search?shopId=1000010404
|
67
GrahamCloud OP @zluyuer 可以期待一下我们这几天马上要出的新版。
|
68
incrediblink 2016-11-19 22:27:04 +08:00 1
为何我无法爬取到 http://news.163.com/16/1119/09/C67NPATB000187V5.html 上的正文,选中了正文那一个 div 之后爬出来的是一张迷之图片… 有的新闻网站有不同的历史版本,每个历史版本的界面不一样,爬起来就很麻烦。
|
69
jmp2x 2016-11-20 01:38:07 +08:00 1
注意下 File 协议的问题 容易造成任意文件读取 虽然在 Container 里 我们小伙伴友情测试了下 →_→
|
70
csx163 2016-11-20 23:27:47 +08:00 1
注册时出现邮件 TOKEN 非法
|
71
GrahamCloud OP @csx163 求告知细节。
|
72
GrahamCloud OP @incrediblink 正文我测试了两次还可以运行,求告知具体配置。
争取周一解决。 |
73
csx163 2016-11-21 11:02:16 +08:00 via Android 1
@GrahamCloud QQ 邮箱,注册时复制邮箱收到的链接到地址栏,打开地址填写资料到输入密码后出现该提示。我 QQ 邮箱为 cs-x 。
|
74
GrahamCloud OP @csx163 现在注册还有问题是么
|
75
GrahamCloud OP @jmp2x 感谢小伙伴,强烈感谢。
|
76
GrahamCloud OP |
77
brucedone 2016-11-21 17:18:47 +08:00 1
我目前想到的,对于”下一页“的解析不是那么的完善,可以考虑增加开发者模式,如果当前的选中单位不符合自己的预期的话,可以自己去编辑。总的来说,和 pyspider ,以及 portia 一样,都是很不错的东东,需要更加的打磨一下就是一个好产品了。
|
78
GrahamCloud OP @brucedone 目前可能确实有个开发者模式能更好的服务客户。
|
79
anexplore 2016-11-22 12:37:52 +08:00 1
|
80
crayonyi 2016-11-22 14:30:58 +08:00 1
新 UI 不错
|
81
GrahamCloud OP @crayonyi 马上还有更多新功能
|
82
cc55555 2016-12-23 14:36:18 +08:00 1
希望可以添加将图片或文章自动发送到邮箱, Post 到 G+、 Twitter 、 Tumblr 等。
|
83
GrahamCloud OP @cc55555 这三个估计短期内还上不了,图片在考虑
|
84
cc55555 2017-01-22 08:22:00 +08:00 1
|
85
cc55555 2017-01-22 13:23:29 +08:00 1
http://www.infosec-wiki.com/?p=308
看到了这篇文章,或许对于你有用处 |
86
GrahamCloud OP @cc55555 可以转发到邮箱, rss 和 dropbox 还暂时在排期开靠后的部分,求加团队微信: Zaoshuio
|
87
Limius 2017-03-07 17:40:22 +08:00 1
@GrahamCloud https://www.howbuy.com/fundtool/filter.htm 这个网站的产品如何怕呢,发现翻页的话网址也没有变化。
|
88
GrahamCloud OP @Limius 好问题
|
89
figofuture 2017-03-13 09:54:22 +08:00
收藏了
|
91
GrahamCloud OP @ospider 感谢!
|
92
ZernonHuang 2017-03-28 22:01:38 +08:00 1
您好,目前我们公司爬某东和某宝的数据,但是被封了 IP.不知道你们的服务会不会有这样风险?可否先试用一下.
|
93
GrahamCloud OP @ZernonHuang 您是手机看了下吧, web 端免费试用,我们的反爬比较专业,使用后可以多提意见和需求。
|
94
yangxin0 2017-04-06 12:36:50 +08:00
噗。。。明明一个简单页面提取工具,这不叫爬虫啊
|